agentic-language-partner

Sleeping

App Files Files Community

mastefan commited on 26 days ago

Commit

0474d38

verified ·

1 Parent(s): 7a76102

Update src/app/conversation_core.py

Browse files

Files changed (1) hide show

src/app/conversation_core.py +8 -20

src/app/conversation_core.py CHANGED Viewed

@@ -10,6 +10,9 @@ from dataclasses import dataclass
 from typing import List, Optional, Tuple
 from .config import get_user_dir
 import torch
 from gtts import gTTS
@@ -109,17 +112,6 @@ _LANG_HINTS = {
 # SPEECH RECOGNITION — faster-whisper
 ##########################################
-from faster_whisper import WhisperModel
-_whisper_model = None
-def load_whisper():
-    global _whisper_model
-    if _whisper_model is None:
-        _whisper_model = WhisperModel("small", device="cpu", compute_type="int8")
-    return _whisper_model
 def transcribe_audio(audio_segment, spoken_lang=None):
     """
     Accepts a pydub AudioSegment (mono, 16k).
@@ -353,7 +345,10 @@ class ConversationManager:
     from transformers import pipeline
-    # Load Whisper once at module import (fast + HF-safe)
     whisper_pipe = pipeline(
         task="automatic-speech-recognition",
         model="openai/whisper-small",
@@ -363,21 +358,14 @@ class ConversationManager:
     def transcribe(self, audio_segment, spoken_lang=None):
         import numpy as np
-        # Convert AudioSegment → numpy float32 PCM
         audio = np.array(audio_segment.get_array_of_samples()).astype("float32")
-        audio = audio / np.max(np.abs(audio))  # normalize to [-1, 1]
-        # Transformers Whisper expects a Python list or numpy array
         result = whisper_pipe(audio)
         text = result.get("text", "").strip()
-        # transformers Whisper does not provide language predictions on CPU
         return text, spoken_lang or "unknown", 1.0
     ###########################################################
     # TEXT → SPEECH
     ###########################################################

 from typing import List, Optional, Tuple
 from .config import get_user_dir
+import numpy as np
+from transformers import pipeline
+from pydub import AudioSegment
 import torch
 from gtts import gTTS
 # SPEECH RECOGNITION — faster-whisper
 ##########################################
 def transcribe_audio(audio_segment, spoken_lang=None):
     """
     Accepts a pydub AudioSegment (mono, 16k).
     from transformers import pipeline
+    ###########################################################
+    # AUDIO TRANSCRIPTION — Transformers Whisper
+    ###########################################################
     whisper_pipe = pipeline(
         task="automatic-speech-recognition",
         model="openai/whisper-small",
     def transcribe(self, audio_segment, spoken_lang=None):
         import numpy as np
         audio = np.array(audio_segment.get_array_of_samples()).astype("float32")
+        audio = audio / np.max(np.abs(audio))
         result = whisper_pipe(audio)
         text = result.get("text", "").strip()
         return text, spoken_lang or "unknown", 1.0
     ###########################################################
     # TEXT → SPEECH
     ###########################################################