Spaces:

Reihaneh
/

Frisian_Automatic_Speech_Recognition

Sleeping

App Files Files Community

Reihaneh commited on Sep 25

Commit

9dc2a58

verified ·

1 Parent(s): a698d06

Update app.py

Browse files

Files changed (1) hide show

app.py +42 -2

app.py CHANGED Viewed

@@ -44,7 +44,7 @@ def _cheap_resample(wav, sr, target_sr):
     idx = idx[idx < wav.shape[0]]
     return wav[idx]
-def transcribe(audio):
     if audio is None:
         return ""
     sr, x = audio
@@ -56,7 +56,47 @@ def transcribe(audio):
         logits = model(inputs.input_values.to(device)).logits
         ids = torch.argmax(logits, dim=-1)
         text = processor.batch_decode(ids)[0]
-    return text
 with gr.Blocks(title="Frisian ASR") as demo:
     gr.Markdown("## 🎙️ Frisian ASR")

     idx = idx[idx < wav.shape[0]]
     return wav[idx]
+'''def transcribe(audio):
     if audio is None:
         return ""
     sr, x = audio
         logits = model(inputs.input_values.to(device)).logits
         ids = torch.argmax(logits, dim=-1)
         text = processor.batch_decode(ids)[0]
+    return text'''
+def transcribe(a):
+    try:
+        if a is None:
+            return ""
+        sr, x = a  # if you use a helper, just make sure you end up with (sr, np.ndarray)
+        # 1) mono + sanitize + FORCE float32
+        import numpy as np, math
+        if x.ndim == 2:
+            x = x.mean(axis=1)
+        x = np.nan_to_num(x).astype(np.float32)
+        # 2) (optional) cheap resample to your processor’s SR
+        target_sr = getattr(getattr(processor, "feature_extractor", None), "sampling_rate", 16000)
+        if sr != target_sr:
+            ratio = target_sr / float(sr)
+            n = int(math.ceil(len(x) * ratio))
+            idx = (np.arange(n) / ratio).astype(np.int64)
+            idx = np.clip(idx, 0, len(x) - 1)
+            x = x[idx]
+        # 3) tokenize → cast inputs to DEVICE + MODEL DTYPE
+        inputs = processor(x, sampling_rate=target_sr, return_tensors="pt", padding=True)
+        input_values = inputs.input_values.to(device)
+        # >>> KEY LINE: match model dtype (prevents "Input type (double) and bias type should be the same")
+        input_values = input_values.to(model.dtype)
+        with torch.inference_mode():
+            logits = model(input_values).logits
+            ids = torch.argmax(logits, dim=-1)
+            text = processor.batch_decode(ids)[0]
+        return text
+    except Exception as e:
+        import traceback
+        print(traceback.format_exc())
+        return f"⚠️ Error: {e}"
 with gr.Blocks(title="Frisian ASR") as demo:
     gr.Markdown("## 🎙️ Frisian ASR")