Spaces:

tecasoftai
/

hubert-phoneme-space

Sleeping

App Files Files Community

Nguyen Anh Hong commited on Jul 25, 2025

Commit

a6380bd

0 Parent(s):

reupload

Browse files

Files changed (4) hide show

.gitattributes +35 -0
README.md +27 -0
app.py +74 -0
requirements.txt +4 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,27 @@

+---
+title: Hubert Phoneme Space
+emoji: 🔥
+colorFrom: red
+colorTo: red
+sdk: gradio
+sdk_version: 5.38.2
+app_file: app.py
+pinned: false
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference
+# HuBERT Phoneme Recognition
+This Space demonstrates a fine-tuned HuBERT model for phoneme recognition.
+Upload or record an audio (16kHz speech), and get the corresponding phoneme sequence (e.g. ARPAbet).
+- Model: [`tecasoftai/hubert-finetune`](https://huggingface.co/tecasoftai/hubert-finetune)
+- Task: Phoneme recognition (CTC)
+- Training dataset: Libri
+- Output format: phoneme sequence string
+## Usage
+Click "Record" or upload a .wav file. The model returns the decoded phonemes.

app.py ADDED Viewed

	@@ -0,0 +1,74 @@

+<<<<<<< HEAD
+import gradio as gr
+import torch
+import torchaudio
+from transformers import Wav2Vec2Processor, HubertForCTC
+processor = Wav2Vec2Processor.from_pretrained("tecasoftai/hubert-finetune")
+model = HubertForCTC.from_pretrained("tecasoftai/hubert-finetune")
+model.eval()
+def transcribe(audio):
+    waveform, sr = torchaudio.load(audio)
+    if sr != 16000:
+        waveform = torchaudio.functional.resample(waveform, sr, 16000)
+    inputs = processor(waveform.squeeze(), sampling_rate=16000, return_tensors="pt")
+    with torch.no_grad():
+        logits = model(**inputs).logits
+    pred_ids = torch.argmax(logits, dim=-1)
+    phonemes = processor.batch_decode(pred_ids)[0]
+    return phonemes
+iface = gr.Interface(
+    fn=transcribe,
+    inputs=gr.Audio(source="microphone", type="filepath"),
+    outputs="text",
+    title="HuBERT Phoneme Recognition",
+    description="Upload or record audio. The model will return phoneme sequence.",
+    live=False
+)
+if __name__ == "__main__":
+    iface.launch()
+=======
+import gradio as gr
+import torch
+import torchaudio
+from transformers import Wav2Vec2Processor, HubertForCTC
+import os
+token = os.environ.get("HF_TOKEN")
+processor = Wav2Vec2Processor.from_pretrained("tecasoftai/hubert-finetune", token=token)
+model = HubertForCTC.from_pretrained("tecasoftai/hubert-finetune", token=token)
+model.eval()
+def transcribe(audio):
+    waveform, sr = torchaudio.load(audio)
+    if sr != 16000:
+        waveform = torchaudio.functional.resample(waveform, sr, 16000)
+    inputs = processor(waveform.squeeze(), sampling_rate=16000, return_tensors="pt")
+    with torch.no_grad():
+        logits = model(**inputs).logits
+    pred_ids = torch.argmax(logits, dim=-1)
+    phonemes = processor.batch_decode(pred_ids)[0]
+    return phonemes
+iface = gr.Interface(
+    fn=transcribe,
+    inputs=gr.Audio(source="microphone", type="filepath"),
+    outputs="text",
+    title="HuBERT Phoneme Recognition",
+    description="Upload or record audio. The model will return phoneme sequence.",
+    live=False
+)
+if __name__ == "__main__":
+    iface.launch()
+>>>>>>> 73dd16b (add local model hubert-finetune)

requirements.txt ADDED Viewed

	@@ -0,0 +1,4 @@

+torch
+torchaudio
+transformers
+gradio