Spaces:

ZTXRiley
/

ASR_AGENT_

Running

App Files Files Community

unknown commited on 8 days ago

Commit

fa16b79

1 Parent(s): 59afc96

add Qwen ASR

Browse files

Files changed (8) hide show

README.md +17 -0
adapters/qwen3_asr.py +204 -0
data/manifest_hf.jsonl +50 -0
pipeline/run_all.py +9 -5
pipeline/run_asr.py +40 -9
requirements.txt +2 -1
scripts/run_hf_job.py +2 -0
ui/app.py +73 -4

README.md CHANGED Viewed

@@ -43,3 +43,20 @@ Or rerun diagnosis only for an existing run:
 export OPENAI_API_KEY=your_key
 python scripts/run_diagnostic.py --run_id <run_id> --model gpt-4.1-mini
 ```

 export OPENAI_API_KEY=your_key
 python scripts/run_diagnostic.py --run_id <run_id> --model gpt-4.1-mini
 ```
+## Qwen3-ASR
+This project now supports `Qwen/Qwen3-ASR-0.6B` and `Qwen/Qwen3-ASR-1.7B` via the `qwen-asr` package.
+Install the runtime dependency:
+```bash
+pip install -U qwen-asr
+```
+Example run:
+```bash
+python pipeline/run_all.py --manifest data/manifest.jsonl --model_name Qwen/Qwen3-ASR-0.6B --backend qwen3_asr --language zh
+```

adapters/qwen3_asr.py ADDED Viewed

	@@ -0,0 +1,204 @@

+from __future__ import annotations
+import time
+from typing import Any, Dict, List, Optional
+import librosa
+import torch
+from core.interfaces import ASRModel
+from core.schemas import ASRConfig, ASROutput, Segment
+_LANG_MAP = {
+    "zh": "Chinese",
+    "zh-cn": "Chinese",
+    "zh-tw": "Chinese",
+    "yue": "Cantonese",
+    "en": "English",
+    "ja": "Japanese",
+    "ko": "Korean",
+    "fr": "French",
+    "de": "German",
+    "es": "Spanish",
+    "pt": "Portuguese",
+    "ru": "Russian",
+    "it": "Italian",
+    "ar": "Arabic",
+    "id": "Indonesian",
+    "vi": "Vietnamese",
+    "th": "Thai",
+    "tr": "Turkish",
+    "hi": "Hindi",
+    "ms": "Malay",
+    "nl": "Dutch",
+    "sv": "Swedish",
+    "da": "Danish",
+    "fi": "Finnish",
+    "pl": "Polish",
+    "cs": "Czech",
+    "fil": "Filipino",
+    "fa": "Persian",
+    "el": "Greek",
+    "hu": "Hungarian",
+    "mk": "Macedonian",
+    "ro": "Romanian",
+}
+class Qwen3ASRAdapter(ASRModel):
+    def __init__(
+        self,
+        model_name: str = "Qwen/Qwen3-ASR-0.6B",
+        device: Optional[str] = None,
+        dtype: Optional[str] = None,
+        device_map: Optional[str] = None,
+        max_inference_batch_size: int = 1,
+        max_new_tokens: int = 512,
+        forced_aligner: Optional[str] = None,
+    ):
+        try:
+            from qwen_asr import Qwen3ASRModel
+        except Exception as e:  # pragma: no cover - import guard
+            raise ImportError(
+                "Qwen3-ASR adapter requires the 'qwen-asr' package. "
+                "Install it with: pip install -U qwen-asr"
+            ) from e
+        self.model_name = model_name
+        self.device = device or ("cuda" if torch.cuda.is_available() else "cpu")
+        self.dtype_name = dtype or ("bfloat16" if self.device.startswith("cuda") else "float32")
+        self.max_inference_batch_size = max_inference_batch_size
+        self.max_new_tokens = max_new_tokens
+        self.forced_aligner = forced_aligner
+        torch_dtype = self._resolve_dtype(self.dtype_name)
+        if self.device.startswith("cuda"):
+            resolved_device_map = device_map or "cuda:0"
+        else:
+            resolved_device_map = device_map or "cpu"
+        kwargs: Dict[str, Any] = {
+            "dtype": torch_dtype,
+            "device_map": resolved_device_map,
+            "max_inference_batch_size": max_inference_batch_size,
+            "max_new_tokens": max_new_tokens,
+        }
+        if forced_aligner:
+            kwargs["forced_aligner"] = forced_aligner
+            kwargs["forced_aligner_kwargs"] = {
+                "dtype": torch_dtype,
+                "device_map": resolved_device_map,
+            }
+        self._qwen_asr_model = Qwen3ASRModel.from_pretrained(model_name, **kwargs)
+        self._model_kwargs = kwargs
+    @staticmethod
+    def _resolve_dtype(dtype_name: str):
+        name = (dtype_name or "").lower()
+        if name in {"bf16", "bfloat16"}:
+            return torch.bfloat16
+        if name in {"fp16", "float16", "half"}:
+            return torch.float16
+        return torch.float32
+    @staticmethod
+    def _normalize_language(language: Optional[str]) -> Optional[str]:
+        if not language:
+            return None
+        key = str(language).strip().lower()
+        return _LANG_MAP.get(key, language)
+    @staticmethod
+    def _segment_from_timestamp(ts: Any, idx: int) -> Optional[Segment]:
+        if ts is None:
+            return None
+        text = getattr(ts, "text", None)
+        start = getattr(ts, "start_time", None)
+        end = getattr(ts, "end_time", None)
+        if text is None:
+            if isinstance(ts, dict):
+                text = ts.get("text")
+                start = ts.get("start_time", ts.get("start"))
+                end = ts.get("end_time", ts.get("end"))
+            else:
+                return None
+        try:
+            return Segment(start=float(start or 0.0), end=float(end or 0.0), text=str(text))
+        except Exception:
+            return Segment(start=float(idx), end=float(idx), text=str(text))
+    def model_info(self) -> Dict:
+        return {
+            "name": "qwen3-asr",
+            "model_name": self.model_name,
+            "device": self.device,
+            "dtype": self.dtype_name,
+            "max_inference_batch_size": self.max_inference_batch_size,
+            "max_new_tokens": self.max_new_tokens,
+            "forced_aligner": self.forced_aligner,
+        }
+    def transcribe(self, utt_id: str, audio_uri: str, config: Optional[ASRConfig] = None) -> ASROutput:
+        config = config or ASRConfig()
+        try:
+            y, sr = librosa.load(audio_uri, sr=16000, mono=True)
+            duration_s = float(len(y) / 16000.0)
+        except Exception:
+            duration_s = None
+        language = self._normalize_language(config.language)
+        return_timestamps = bool(self.forced_aligner)
+        t0 = time.time()
+        results = self._qwen_asr_model.transcribe(
+            audio=audio_uri,
+            language=language,
+            return_time_stamps=return_timestamps,
+        )
+        latency_ms = (time.time() - t0) * 1000.0
+        if not results:
+            return ASROutput(
+                utt_id=utt_id,
+                hyp_text="",
+                segments=[],
+                language=language,
+                duration_s=duration_s,
+                latency_ms=latency_ms,
+                confidence=None,
+                extras={},
+            )
+        result = results[0]
+        hyp_text = str(getattr(result, "text", "") or "").strip()
+        detected_language = getattr(result, "language", None) or language
+        segments: List[Segment] = []
+        time_stamps = getattr(result, "time_stamps", None)
+        if time_stamps:
+            for idx, ts in enumerate(time_stamps):
+                seg = self._segment_from_timestamp(ts, idx)
+                if seg is not None:
+                    segments.append(seg)
+        elif duration_s is not None:
+            segments = [Segment(start=0.0, end=duration_s, text=hyp_text)]
+        extras: Dict[str, Any] = {}
+        for key in ["tokens", "raw_text"]:
+            value = getattr(result, key, None)
+            if value is not None:
+                extras[key] = value
+        return ASROutput(
+            utt_id=utt_id,
+            hyp_text=hyp_text,
+            segments=segments,
+            language=detected_language,
+            duration_s=duration_s,
+            latency_ms=latency_ms,
+            confidence=None,
+            extras=extras,
+        )

data/manifest_hf.jsonl ADDED Viewed

	@@ -0,0 +1,50 @@

+{"utt_id": "fsicoli_common_voice_22_0_00000", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00000.wav", "ref_text": "巴顿是位于美国加利福尼亚州阿马多尔县的一个非建制地区。", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "bcb4464171113dd9b51f371c3eecea06771fde83e7e3239ad0516469c6dcdf80170d26c7d1b1ef2476c45b51bfb4ee5549f07d7002bcfcec9b371a30c873b92d", "gender": "male_masculine", "accent": "", "age": "twenties", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00001", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00001.wav", "ref_text": "恩骑尉，是中国清朝时的爵名。", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "bcb4464171113dd9b51f371c3eecea06771fde83e7e3239ad0516469c6dcdf80170d26c7d1b1ef2476c45b51bfb4ee5549f07d7002bcfcec9b371a30c873b92d", "gender": "male_masculine", "accent": "", "age": "twenties", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00002", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00002.wav", "ref_text": "仙台盐釜港是位于日本宫城县、内的海港，由宫城县政府负责港务营运。", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "bcb4464171113dd9b51f371c3eecea06771fde83e7e3239ad0516469c6dcdf80170d26c7d1b1ef2476c45b51bfb4ee5549f07d7002bcfcec9b371a30c873b92d", "gender": "male_masculine", "accent": "", "age": "twenties", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00003", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00003.wav", "ref_text": "利马的阳台是西班牙殖民时期和共和国时期建造的文化遗产。", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "bcb4464171113dd9b51f371c3eecea06771fde83e7e3239ad0516469c6dcdf80170d26c7d1b1ef2476c45b51bfb4ee5549f07d7002bcfcec9b371a30c873b92d", "gender": "male_masculine", "accent": "", "age": "twenties", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00004", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00004.wav", "ref_text": "成山，字屏临，号进斋，满洲正蓝旗人。", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "bcb4464171113dd9b51f371c3eecea06771fde83e7e3239ad0516469c6dcdf80170d26c7d1b1ef2476c45b51bfb4ee5549f07d7002bcfcec9b371a30c873b92d", "gender": "male_masculine", "accent": "", "age": "twenties", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00005", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00005.wav", "ref_text": "嘉靖十一年任福建龙溪县知县。", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "bcb4464171113dd9b51f371c3eecea06771fde83e7e3239ad0516469c6dcdf80170d26c7d1b1ef2476c45b51bfb4ee5549f07d7002bcfcec9b371a30c873b92d", "gender": "male_masculine", "accent": "", "age": "twenties", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00006", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00006.wav", "ref_text": "科莫巴比是位于美国亚利桑那州皮马县的一个人口普查指定地区。", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "bcb4464171113dd9b51f371c3eecea06771fde83e7e3239ad0516469c6dcdf80170d26c7d1b1ef2476c45b51bfb4ee5549f07d7002bcfcec9b371a30c873b92d", "gender": "male_masculine", "accent": "", "age": "twenties", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00007", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00007.wav", "ref_text": "历史上明永乐皇帝、清干隆皇帝等曾经多次到访，并留下牌匾和诗句。", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "bcb4464171113dd9b51f371c3eecea06771fde83e7e3239ad0516469c6dcdf80170d26c7d1b1ef2476c45b51bfb4ee5549f07d7002bcfcec9b371a30c873b92d", "gender": "male_masculine", "accent": "", "age": "twenties", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00008", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00008.wav", "ref_text": "小花仙动画角色列表记录了所有在中国大陆动画《小花仙》系列中出场角色的详细介绍。", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "bcb4464171113dd9b51f371c3eecea06771fde83e7e3239ad0516469c6dcdf80170d26c7d1b1ef2476c45b51bfb4ee5549f07d7002bcfcec9b371a30c873b92d", "gender": "male_masculine", "accent": "", "age": "twenties", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00009", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00009.wav", "ref_text": "妳不要再去那里了", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "bcb4464171113dd9b51f371c3eecea06771fde83e7e3239ad0516469c6dcdf80170d26c7d1b1ef2476c45b51bfb4ee5549f07d7002bcfcec9b371a30c873b92d", "gender": "male_masculine", "accent": "", "age": "twenties", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00010", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00010.wav", "ref_text": "银座松竹广场是位于日本东京都中央区筑地一丁目的摩天大楼。", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "bcb4464171113dd9b51f371c3eecea06771fde83e7e3239ad0516469c6dcdf80170d26c7d1b1ef2476c45b51bfb4ee5549f07d7002bcfcec9b371a30c873b92d", "gender": "male_masculine", "accent": "", "age": "twenties", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00011", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00011.wav", "ref_text": "儿童权利监察使办公室设于华沙。", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "bcb4464171113dd9b51f371c3eecea06771fde83e7e3239ad0516469c6dcdf80170d26c7d1b1ef2476c45b51bfb4ee5549f07d7002bcfcec9b371a30c873b92d", "gender": "male_masculine", "accent": "", "age": "twenties", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00012", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00012.wav", "ref_text": "灰阶音乐是位于香港的一家独立唱片厂牌和音乐出版公司。", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "bcb4464171113dd9b51f371c3eecea06771fde83e7e3239ad0516469c6dcdf80170d26c7d1b1ef2476c45b51bfb4ee5549f07d7002bcfcec9b371a30c873b92d", "gender": "male_masculine", "accent": "", "age": "twenties", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00013", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00013.wav", "ref_text": "梁士济，字遂良，广东广州府南海县人，明朝、南明政治人物。", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "bcb4464171113dd9b51f371c3eecea06771fde83e7e3239ad0516469c6dcdf80170d26c7d1b1ef2476c45b51bfb4ee5549f07d7002bcfcec9b371a30c873b92d", "gender": "male_masculine", "accent": "", "age": "twenties", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00014", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00014.wav", "ref_text": "姜涛曾就读轩尼诗道官立下午小学、邓肇坚维多利亚官立中学和青年学院。", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "bcb4464171113dd9b51f371c3eecea06771fde83e7e3239ad0516469c6dcdf80170d26c7d1b1ef2476c45b51bfb4ee5549f07d7002bcfcec9b371a30c873b92d", "gender": "male_masculine", "accent": "", "age": "twenties", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00015", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00015.wav", "ref_text": "上海江南长兴重工有限责任公司简称长兴重工，厂区位于上海长兴岛船舶制造基地。", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "bcb4464171113dd9b51f371c3eecea06771fde83e7e3239ad0516469c6dcdf80170d26c7d1b1ef2476c45b51bfb4ee5549f07d7002bcfcec9b371a30c873b92d", "gender": "male_masculine", "accent": "", "age": "twenties", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00016", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00016.wav", "ref_text": "卢启贤是香港的亿万富翁企业家和慈善家。", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "bcb4464171113dd9b51f371c3eecea06771fde83e7e3239ad0516469c6dcdf80170d26c7d1b1ef2476c45b51bfb4ee5549f07d7002bcfcec9b371a30c873b92d", "gender": "male_masculine", "accent": "", "age": "twenties", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00017", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00017.wav", "ref_text": "在这类故事的早期版本里，女人的猪脸外观是由巫术导致的。", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "bcb4464171113dd9b51f371c3eecea06771fde83e7e3239ad0516469c6dcdf80170d26c7d1b1ef2476c45b51bfb4ee5549f07d7002bcfcec9b371a30c873b92d", "gender": "male_masculine", "accent": "", "age": "twenties", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00018", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00018.wav", "ref_text": "事件起因据信是天然气爆炸。", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "bcb4464171113dd9b51f371c3eecea06771fde83e7e3239ad0516469c6dcdf80170d26c7d1b1ef2476c45b51bfb4ee5549f07d7002bcfcec9b371a30c873b92d", "gender": "male_masculine", "accent": "", "age": "twenties", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00019", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00019.wav", "ref_text": "在工作了九年后，伯爵不幸去世。", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "bcb4464171113dd9b51f371c3eecea06771fde83e7e3239ad0516469c6dcdf80170d26c7d1b1ef2476c45b51bfb4ee5549f07d7002bcfcec9b371a30c873b92d", "gender": "male_masculine", "accent": "", "age": "twenties", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00020", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00020.wav", "ref_text": "整个系统称为键接合。", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "bcb4464171113dd9b51f371c3eecea06771fde83e7e3239ad0516469c6dcdf80170d26c7d1b1ef2476c45b51bfb4ee5549f07d7002bcfcec9b371a30c873b92d", "gender": "male_masculine", "accent": "", "age": "twenties", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00021", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00021.wav", "ref_text": "大和和纪，日本漫画家，代表作有《窈窕淑女》、《源氏物语》等。", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "bcb4464171113dd9b51f371c3eecea06771fde83e7e3239ad0516469c6dcdf80170d26c7d1b1ef2476c45b51bfb4ee5549f07d7002bcfcec9b371a30c873b92d", "gender": "male_masculine", "accent": "", "age": "twenties", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00022", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00022.wav", "ref_text": "事后三天，赵宇被福州市公安局晋安分局以涉嫌故意伤害罪刑事拘留。", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "bcb4464171113dd9b51f371c3eecea06771fde83e7e3239ad0516469c6dcdf80170d26c7d1b1ef2476c45b51bfb4ee5549f07d7002bcfcec9b371a30c873b92d", "gender": "male_masculine", "accent": "", "age": "twenties", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00023", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00023.wav", "ref_text": "由春岗互通向萝岗方向排列", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "bcb4464171113dd9b51f371c3eecea06771fde83e7e3239ad0516469c6dcdf80170d26c7d1b1ef2476c45b51bfb4ee5549f07d7002bcfcec9b371a30c873b92d", "gender": "male_masculine", "accent": "", "age": "twenties", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00024", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00024.wav", "ref_text": "弘光帝即位，让刘文照袭封新乐伯，南京沦陷后寄居在高邮，开辟农田种菜直到去世。", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "bcb4464171113dd9b51f371c3eecea06771fde83e7e3239ad0516469c6dcdf80170d26c7d1b1ef2476c45b51bfb4ee5549f07d7002bcfcec9b371a30c873b92d", "gender": "male_masculine", "accent": "", "age": "twenties", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00025", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00025.wav", "ref_text": "露露夫人终究与三姐弟达成了协议。", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "99a4cee094a7058f27e615982d793da9039f8916c4cb0934eafecb601214cb89657ddee22f688a38782a72f5b6622a323ed6dca74f6663430f8cb3c0804563ea", "gender": "male_masculine", "accent": "出生地：31 上海市", "age": "teens", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00026", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00026.wav", "ref_text": "武定州，中国唐朝时设置的州。", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "99a4cee094a7058f27e615982d793da9039f8916c4cb0934eafecb601214cb89657ddee22f688a38782a72f5b6622a323ed6dca74f6663430f8cb3c0804563ea", "gender": "male_masculine", "accent": "出生地：31 上海市", "age": "teens", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00027", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00027.wav", "ref_text": "宝陀寺，可以指", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "99a4cee094a7058f27e615982d793da9039f8916c4cb0934eafecb601214cb89657ddee22f688a38782a72f5b6622a323ed6dca74f6663430f8cb3c0804563ea", "gender": "male_masculine", "accent": "出生地：31 上海市", "age": "teens", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00028", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00028.wav", "ref_text": "去札幌啤酒博物馆", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "99a4cee094a7058f27e615982d793da9039f8916c4cb0934eafecb601214cb89657ddee22f688a38782a72f5b6622a323ed6dca74f6663430f8cb3c0804563ea", "gender": "male_masculine", "accent": "出生地：31 上海市", "age": "teens", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00029", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00029.wav", "ref_text": "洛莱塔是位于美国加利福尼亚州洪堡县的一个人口普查指定地区。", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "99a4cee094a7058f27e615982d793da9039f8916c4cb0934eafecb601214cb89657ddee22f688a38782a72f5b6622a323ed6dca74f6663430f8cb3c0804563ea", "gender": "male_masculine", "accent": "出生地：31 上海市", "age": "teens", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00030", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00030.wav", "ref_text": "许州人。", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "99a4cee094a7058f27e615982d793da9039f8916c4cb0934eafecb601214cb89657ddee22f688a38782a72f5b6622a323ed6dca74f6663430f8cb3c0804563ea", "gender": "male_masculine", "accent": "出生地：31 上海市", "age": "teens", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00031", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00031.wav", "ref_text": "班纳镇区为美国堪萨斯州杰克逊县辖下的镇区。", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "99a4cee094a7058f27e615982d793da9039f8916c4cb0934eafecb601214cb89657ddee22f688a38782a72f5b6622a323ed6dca74f6663430f8cb3c0804563ea", "gender": "male_masculine", "accent": "出生地：31 上海市", "age": "teens", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00032", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00032.wav", "ref_text": "范家庄遗址，位于山东省潍坊市坊子区坊城街道。", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "99a4cee094a7058f27e615982d793da9039f8916c4cb0934eafecb601214cb89657ddee22f688a38782a72f5b6622a323ed6dca74f6663430f8cb3c0804563ea", "gender": "male_masculine", "accent": "出生地：31 上海市", "age": "teens", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00033", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00033.wav", "ref_text": "郭新立，河北安国人，出生于北京，中国教育人物，现任山东大学党委书记。", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "99a4cee094a7058f27e615982d793da9039f8916c4cb0934eafecb601214cb89657ddee22f688a38782a72f5b6622a323ed6dca74f6663430f8cb3c0804563ea", "gender": "male_masculine", "accent": "出生地：31 上海市", "age": "teens", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00034", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00034.wav", "ref_text": "龟山风景区管理处是下辖的一个类似乡级单位。", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "22950d9b987d2554c0d7130808cc60fcb5255d92bb579ad138f4da5e2d5fc52b02d4639e4fe708ef5b820a04812fd3f530e3ea93abfac3e55c8dc2ad22696403", "gender": "", "accent": "", "age": "", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00035", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00035.wav", "ref_text": "后来他随着李成栋反正，历任光禄卿、户部右侍郎，兵部左侍郎，永历二年晋兵部尚书。", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "22950d9b987d2554c0d7130808cc60fcb5255d92bb579ad138f4da5e2d5fc52b02d4639e4fe708ef5b820a04812fd3f530e3ea93abfac3e55c8dc2ad22696403", "gender": "", "accent": "", "age": "", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00036", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00036.wav", "ref_text": "同年加入中国人民解放军。", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "22950d9b987d2554c0d7130808cc60fcb5255d92bb579ad138f4da5e2d5fc52b02d4639e4fe708ef5b820a04812fd3f530e3ea93abfac3e55c8dc2ad22696403", "gender": "", "accent": "", "age": "", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00037", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00037.wav", "ref_text": "由马可、许亚军领衔主演，并由岳红、柯蓝、王策、孙爽联合主演。", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "22950d9b987d2554c0d7130808cc60fcb5255d92bb579ad138f4da5e2d5fc52b02d4639e4fe708ef5b820a04812fd3f530e3ea93abfac3e55c8dc2ad22696403", "gender": "", "accent": "", "age": "", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00038", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00038.wav", "ref_text": "生于崎玉县川越市，女子美术大学肄业。", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "22950d9b987d2554c0d7130808cc60fcb5255d92bb579ad138f4da5e2d5fc52b02d4639e4fe708ef5b820a04812fd3f530e3ea93abfac3e55c8dc2ad22696403", "gender": "", "accent": "", "age": "", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00039", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00039.wav", "ref_text": "旧福布斯敦是位于美国加利福尼亚州比尤特县的一个非建制地区。", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "22950d9b987d2554c0d7130808cc60fcb5255d92bb579ad138f4da5e2d5fc52b02d4639e4fe708ef5b820a04812fd3f530e3ea93abfac3e55c8dc2ad22696403", "gender": "", "accent": "", "age": "", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00040", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00040.wav", "ref_text": "大厅供穆斯林祈祷，这也是他们见面以结束禁食的地方。", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "22950d9b987d2554c0d7130808cc60fcb5255d92bb579ad138f4da5e2d5fc52b02d4639e4fe708ef5b820a04812fd3f530e3ea93abfac3e55c8dc2ad22696403", "gender": "", "accent": "", "age": "", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00041", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00041.wav", "ref_text": "我们就没办法改善", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "22950d9b987d2554c0d7130808cc60fcb5255d92bb579ad138f4da5e2d5fc52b02d4639e4fe708ef5b820a04812fd3f530e3ea93abfac3e55c8dc2ad22696403", "gender": "", "accent": "", "age": "", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00042", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00042.wav", "ref_text": "四号镇区是位于美国阿肯色州本顿县的一个镇区。", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "22950d9b987d2554c0d7130808cc60fcb5255d92bb579ad138f4da5e2d5fc52b02d4639e4fe708ef5b820a04812fd3f530e3ea93abfac3e55c8dc2ad22696403", "gender": "", "accent": "", "age": "", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00043", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00043.wav", "ref_text": "格梅林后来出版了若干本关于化学、制药科学、矿物学和植物学的教科书。", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "22950d9b987d2554c0d7130808cc60fcb5255d92bb579ad138f4da5e2d5fc52b02d4639e4fe708ef5b820a04812fd3f530e3ea93abfac3e55c8dc2ad22696403", "gender": "", "accent": "", "age": "", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00044", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00044.wav", "ref_text": "同年获选澳门十大杰出运动员，是首位获奖的篮球员。", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "3c71635420e0de3a0272e28a63d340dbaaeb5d99e246668955f38c25279dfdbbd8eec8cc8663601fe11d6cfd81a45f9a2e8a5d55379220fe71d24a00bee0effb", "gender": "male_masculine", "accent": "出生地：42 湖北省", "age": "thirties", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00045", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00045.wav", "ref_text": "阿尔德斯普林斯是位于美国加利福尼亚州弗雷斯诺县的一个非建制地区。", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "3c71635420e0de3a0272e28a63d340dbaaeb5d99e246668955f38c25279dfdbbd8eec8cc8663601fe11d6cfd81a45f9a2e8a5d55379220fe71d24a00bee0effb", "gender": "male_masculine", "accent": "出生地：42 湖北省", "age": "thirties", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00046", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00046.wav", "ref_text": "巴特勒是位于美国亚利桑那州莫哈维县的一个非建制地区。", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "3c71635420e0de3a0272e28a63d340dbaaeb5d99e246668955f38c25279dfdbbd8eec8cc8663601fe11d6cfd81a45f9a2e8a5d55379220fe71d24a00bee0effb", "gender": "male_masculine", "accent": "出生地：42 湖北省", "age": "thirties", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00047", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00047.wav", "ref_text": "最后放弃", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "3c71635420e0de3a0272e28a63d340dbaaeb5d99e246668955f38c25279dfdbbd8eec8cc8663601fe11d6cfd81a45f9a2e8a5d55379220fe71d24a00bee0effb", "gender": "male_masculine", "accent": "出生地：42 湖北省", "age": "thirties", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00048", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00048.wav", "ref_text": "薄刀峰林场，是下辖的一个类似乡级单位。", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "3c71635420e0de3a0272e28a63d340dbaaeb5d99e246668955f38c25279dfdbbd8eec8cc8663601fe11d6cfd81a45f9a2e8a5d55379220fe71d24a00bee0effb", "gender": "male_masculine", "accent": "出生地：42 湖北省", "age": "thirties", "locale": "zh-CN"}}
+{"utt_id": "fsicoli_common_voice_22_0_00049", "audio_uri": "C:\\Users\\hp\\Desktop\\ASR Agent\\ASR_AGENT_\\data\\hf_audio\\fsicoli_common_voice_22_0_00049.wav", "ref_text": "该季他第一次出赛是在九局上担任普林斯·菲尔德的代跑。", "meta": {"dataset_id": "fsicoli/common_voice_22_0", "dataset_config": "zh-CN", "split": "validation", "text_field": "sentence", "sample_rate": 48000, "client_id": "dfacf81ef98f2b80ebf3a932d8c926f7fa65ffaa8dfc35edefc1344d0e4096cc52dd6cd86f2b29d9ae8dc8bf25d4ac3e0fd6133ed370de7f4e6df6d89193c9b4", "gender": "male_masculine", "accent": "出生地：35 福建省", "age": "twenties", "locale": "zh-CN"}}

pipeline/run_all.py CHANGED Viewed

@@ -1,24 +1,28 @@
 from __future__ import annotations
 import argparse
-from pipeline.run_asr import run_asr
 from pipeline.run_analysis import run_analysis
 def main():
     ap = argparse.ArgumentParser()
     ap.add_argument("--manifest", required=True)
-    ap.add_argument("--model_name", default="small")
     ap.add_argument("--device", default="cpu")
-    ap.add_argument("--compute_type", default="int8")
     ap.add_argument("--llm_model", default="gpt-4.1-mini")
     ap.add_argument("--disable_llm", action="store_true")
     args = ap.parse_args()
     run_id = run_asr(
         manifest_path=args.manifest,
-        model_name=args.model_name,
         device=args.device,
-        compute_type=args.compute_type,
     )
     run_analysis(run_id, llm_enabled=not args.disable_llm, llm_model=args.llm_model)
     print(f"Done. Run: runs/{run_id}")

 from __future__ import annotations
 import argparse
 from pipeline.run_analysis import run_analysis
+from pipeline.run_asr import run_asr
 def main():
     ap = argparse.ArgumentParser()
     ap.add_argument("--manifest", required=True)
+    ap.add_argument("--model_name", default="openai/whisper-small")
     ap.add_argument("--device", default="cpu")
+    ap.add_argument("--backend", default="auto", choices=["auto", "whisper_transformers", "qwen3_asr"])
     ap.add_argument("--llm_model", default="gpt-4.1-mini")
     ap.add_argument("--disable_llm", action="store_true")
+    ap.add_argument("--language", default="zh")
     args = ap.parse_args()
     run_id = run_asr(
         manifest_path=args.manifest,
+        model_repo_id=args.model_name,
         device=args.device,
+        asr_config={"language": args.language},
+        backend=args.backend,
     )
     run_analysis(run_id, llm_enabled=not args.disable_llm, llm_model=args.llm_model)
     print(f"Done. Run: runs/{run_id}")

pipeline/run_asr.py CHANGED Viewed

@@ -1,18 +1,19 @@
 from __future__ import annotations
 import argparse
 import json
 from pathlib import Path
 from typing import Dict, Optional
 from tqdm import tqdm
-from core.io import load_manifest, append_jsonl, read_jsonl
 from core.schemas import ASRConfig
-from core.utils import stable_hash, ensure_dir
-from adapters.whisper_transformers import TransformersWhisperAdapter
-import hashlib
 def file_md5(path: str) -> str:
     h = hashlib.md5()
@@ -22,23 +23,51 @@ def file_md5(path: str) -> str:
     return h.hexdigest()[:8]
 def run_asr(
     manifest_path: str,
     out_root: str = "runs",
     model_repo_id: str = "openai/whisper-small",
     device: str = "cpu",
     asr_config: Optional[Dict] = None,
 ) -> str:
     asr_config = asr_config or {}
     cfg = ASRConfig(**asr_config)
-    adapter = TransformersWhisperAdapter(model_name=model_repo_id, device=device)
     model_info = adapter.model_info()
     manifest_hash = file_md5(manifest_path)
-    run_id = f"whisper_{model_repo_id.split('/')[-1]}_{manifest_hash}_{stable_hash({'model': model_info, 'cfg': cfg.model_dump()})}"
-    # run_id = f"whisper_{model_repo_id.split('/')[-1]}_{stable_hash({'model': model_info, 'cfg': cfg.model_dump()})}"
     run_dir = Path(out_root) / run_id
     ensure_dir(run_dir)
@@ -47,11 +76,11 @@ def run_asr(
         "manifest_path": str(manifest_path),
         "model_info": model_info,
         "asr_config": cfg.model_dump(),
     }
     (run_dir / "run_meta.json").write_text(json.dumps(run_meta, ensure_ascii=False, indent=2), encoding="utf-8")
     out_path = run_dir / "asr_outputs.jsonl"
     done = set()
     if out_path.exists():
         for r in read_jsonl(out_path):
@@ -77,6 +106,7 @@ def main():
     ap.add_argument("--model_repo_id", default="openai/whisper-small")
     ap.add_argument("--device", default="cpu")
     ap.add_argument("--language", default="zh")
     args = ap.parse_args()
     run_id = run_asr(
@@ -85,6 +115,7 @@ def main():
         model_repo_id=args.model_repo_id,
         device=args.device,
         asr_config={"language": args.language},
     )
     print(run_id)

 from __future__ import annotations
 import argparse
+import hashlib
 import json
 from pathlib import Path
 from typing import Dict, Optional
 from tqdm import tqdm
+from adapters.qwen3_asr import Qwen3ASRAdapter
+from adapters.whisper_transformers import TransformersWhisperAdapter
+from core.io import append_jsonl, load_manifest, read_jsonl
 from core.schemas import ASRConfig
+from core.utils import ensure_dir, stable_hash
 def file_md5(path: str) -> str:
     h = hashlib.md5()
     return h.hexdigest()[:8]
+def resolve_backend(model_repo_id: str, backend: Optional[str] = None) -> str:
+    if backend and backend != "auto":
+        return backend
+    model_id = (model_repo_id or "").lower()
+    if "qwen3-asr" in model_id:
+        return "qwen3_asr"
+    return "whisper_transformers"
+def build_adapter(
+    model_repo_id: str,
+    device: str,
+    backend: str,
+    asr_config: ASRConfig,
+):
+    if backend == "qwen3_asr":
+        forced_aligner = "Qwen/Qwen3-ForcedAligner-0.6B" if asr_config.chunk_length_s else None
+        return Qwen3ASRAdapter(
+            model_name=model_repo_id,
+            device=device,
+            forced_aligner=forced_aligner,
+        )
+    if backend == "whisper_transformers":
+        return TransformersWhisperAdapter(model_name=model_repo_id, device=device)
+    raise ValueError(f"Unsupported backend: {backend}")
 def run_asr(
     manifest_path: str,
     out_root: str = "runs",
     model_repo_id: str = "openai/whisper-small",
     device: str = "cpu",
     asr_config: Optional[Dict] = None,
+    backend: str = "auto",
 ) -> str:
     asr_config = asr_config or {}
     cfg = ASRConfig(**asr_config)
+    resolved_backend = resolve_backend(model_repo_id, backend)
+    adapter = build_adapter(model_repo_id=model_repo_id, device=device, backend=resolved_backend, asr_config=cfg)
     model_info = adapter.model_info()
     manifest_hash = file_md5(manifest_path)
+    run_id = f"{resolved_backend}_{model_repo_id.split('/')[-1]}_{manifest_hash}_{stable_hash({'model': model_info, 'cfg': cfg.model_dump()})}"
     run_dir = Path(out_root) / run_id
     ensure_dir(run_dir)
         "manifest_path": str(manifest_path),
         "model_info": model_info,
         "asr_config": cfg.model_dump(),
+        "backend": resolved_backend,
     }
     (run_dir / "run_meta.json").write_text(json.dumps(run_meta, ensure_ascii=False, indent=2), encoding="utf-8")
     out_path = run_dir / "asr_outputs.jsonl"
     done = set()
     if out_path.exists():
         for r in read_jsonl(out_path):
     ap.add_argument("--model_repo_id", default="openai/whisper-small")
     ap.add_argument("--device", default="cpu")
     ap.add_argument("--language", default="zh")
+    ap.add_argument("--backend", default="auto", choices=["auto", "whisper_transformers", "qwen3_asr"])
     args = ap.parse_args()
     run_id = run_asr(
         model_repo_id=args.model_repo_id,
         device=args.device,
         asr_config={"language": args.language},
+        backend=args.backend,
     )
     print(run_id)

requirements.txt CHANGED Viewed

@@ -22,4 +22,5 @@ soundfile
 librosa
 pydantic>=2.0
 opencc-python-reimplemented
-openai>=1.30.0

 librosa
 pydantic>=2.0
 opencc-python-reimplemented
+openai>=1.30.0
+qwen-asr

scripts/run_hf_job.py CHANGED Viewed

@@ -184,6 +184,7 @@ def main():
     ap.add_argument("--num", type=int, default=50)
     ap.add_argument("--model_repo_id", required=True)
     ap.add_argument("--language", default="zh")
     ap.add_argument("--out_root", default="runs")
@@ -215,6 +216,7 @@ def main():
         model_repo_id=args.model_repo_id,
         device="cpu",
         asr_config={"language": args.language},
     )
     print(f"  - ASR done. run_id={run_id}")

     ap.add_argument("--num", type=int, default=50)
     ap.add_argument("--model_repo_id", required=True)
+    ap.add_argument("--backend", default="auto", choices=["auto", "whisper_transformers", "qwen3_asr"])
     ap.add_argument("--language", default="zh")
     ap.add_argument("--out_root", default="runs")
         model_repo_id=args.model_repo_id,
         device="cpu",
         asr_config={"language": args.language},
+        backend=args.backend,
     )
     print(f"  - ASR done. run_id={run_id}")

ui/app.py CHANGED Viewed

@@ -40,13 +40,54 @@ def _read_jsonl(path: Path):
     return rows
 def _normalize_semantic_df(df: pd.DataFrame) -> pd.DataFrame:
     if df is None or len(df) == 0:
         return pd.DataFrame()
     out = df.copy()
     for col in ["semantic_error_types", "improvement_suggestions"]:
         if col in out.columns:
-            out[col] = out[col].apply(lambda xs: xs if isinstance(xs, list) else ([] if pd.isna(xs) else [str(xs)]))
     if "semantic_error_types" in out.columns and "semantic_error_types_str" not in out.columns:
         out["semantic_error_types_str"] = out["semantic_error_types"].apply(lambda xs: " | ".join(xs))
     if "improvement_suggestions" in out.columns and "improvement_suggestions_str" not in out.columns:
@@ -233,7 +274,28 @@ def search_semantic(run_id, judgement, severity, business_impact, semantic_type,
     return q[cols].head(300)
-def run_hf_job(dataset_id, dataset_config, split, text_field, model_repo_id, language, num_samples):
     cmd = [
         sys.executable,
         "scripts/run_hf_job.py",
@@ -241,6 +303,7 @@ def run_hf_job(dataset_id, dataset_config, split, text_field, model_repo_id, lan
         "--split", split.strip(),
         "--text_field", text_field.strip(),
         "--model_repo_id", model_repo_id.strip(),
         "--language", language.strip(),
         "--num", str(int(num_samples)),
     ]
@@ -250,6 +313,7 @@ def run_hf_job(dataset_id, dataset_config, split, text_field, model_repo_id, lan
     p = subprocess.run(cmd, capture_output=True, text=True)
     out = (p.stdout or "") + ("\n" + (p.stderr or "") if p.stderr else "")
     if p.returncode != 0:
         out += "\n\n[HINT] If you see 401/403 for Common Voice: set HF_TOKEN in Space Settings → Secrets, and accept dataset terms on HF."
         empty = pd.DataFrame()
         return out, gr.update(), "", empty, empty, empty, "", "No diagnostic report yet.", gr.update(), gr.update()
@@ -261,6 +325,7 @@ def run_hf_job(dataset_id, dataset_config, split, text_field, model_repo_id, lan
     else:
         md, align_view, events_view, semantic_view, semantic_md, diagnostic_text, type_dd, domain_dd = "", pd.DataFrame(), pd.DataFrame(), pd.DataFrame(), "", "No diagnostic report yet.", gr.update(), gr.update()
     return out, gr.update(choices=runs, value=latest), md, align_view, events_view, semantic_view, semantic_md, diagnostic_text, type_dd, domain_dd
@@ -269,7 +334,7 @@ with gr.Blocks() as demo:
     with gr.Accordion("Run from Hugging Face", open=True):
         gr.Markdown(
-            "Fill in a dataset and a Whisper model, then click **Run**. "
             "If the dataset is gated, set `HF_TOKEN` in Space **Settings → Secrets**. "
             "For LLM semantic diagnostics, make sure `OPENAI_API_KEY` is available."
         )
@@ -282,8 +347,10 @@ with gr.Blocks() as demo:
             num_samples = gr.Number(label="Num samples", value=50, precision=0)
         with gr.Row():
             model_repo_id = gr.Textbox(label="HF model repo id", value="openai/whisper-small")
             language = gr.Textbox(label="Language", value="zh")
         run_btn = gr.Button("Run")
         logs = gr.Textbox(label="Logs", lines=16)
     gr.Markdown("## Browse Existing Runs")
@@ -336,6 +403,8 @@ with gr.Blocks() as demo:
         semantic_type.choices = type0["choices"]
         semantic_domain.choices = domain0["choices"]
     run_dd.change(
         on_select_run,
         inputs=[run_dd],
@@ -352,6 +421,6 @@ with gr.Blocks() as demo:
     run_btn.click(
         run_hf_job,
-        inputs=[dataset_id, dataset_config, split, text_field, model_repo_id, language, num_samples],
         outputs=[logs, run_dd, summary_md, align_tbl, events_tbl, semantic_tbl, semantic_overview_md, diagnostic_md, semantic_type, semantic_domain],
     )

     return rows
+def _normalize_semantic_cell(xs):
+    def _clean_seq(seq):
+        out = []
+        for x in seq:
+            if x is None:
+                continue
+            try:
+                na = pd.isna(x)
+                if isinstance(na, bool) and na:
+                    continue
+            except Exception:
+                pass
+            s = str(x).strip()
+            if s:
+                out.append(s)
+        return out
+    if xs is None:
+        return []
+    if isinstance(xs, (list, tuple, set)):
+        return _clean_seq(xs)
+    if hasattr(xs, "tolist") and not isinstance(xs, (str, bytes, dict)):
+        try:
+            arr = xs.tolist()
+            if isinstance(arr, (list, tuple, set)):
+                return _clean_seq(arr)
+            if arr is None:
+                return []
+            xs = arr
+        except Exception:
+            pass
+    try:
+        na = pd.isna(xs)
+        if isinstance(na, bool) and na:
+            return []
+    except Exception:
+        pass
+    s = str(xs).strip()
+    return [s] if s else []
 def _normalize_semantic_df(df: pd.DataFrame) -> pd.DataFrame:
     if df is None or len(df) == 0:
         return pd.DataFrame()
     out = df.copy()
     for col in ["semantic_error_types", "improvement_suggestions"]:
         if col in out.columns:
+            out[col] = out[col].apply(_normalize_semantic_cell)
     if "semantic_error_types" in out.columns and "semantic_error_types_str" not in out.columns:
         out["semantic_error_types_str"] = out["semantic_error_types"].apply(lambda xs: " | ".join(xs))
     if "improvement_suggestions" in out.columns and "improvement_suggestions_str" not in out.columns:
     return q[cols].head(300)
+def apply_backend_preset(backend, model_repo_id, language):
+    backend = str(backend or "auto").strip()
+    model_repo_id = str(model_repo_id or "").strip()
+    language = str(language or "").strip()
+    if backend == "qwen3_asr":
+        if (not model_repo_id) or ("qwen3-asr" not in model_repo_id.lower()):
+            model_repo_id = "Qwen/Qwen3-ASR-0.6B"
+        if not language:
+            language = "zh"
+        info = "Qwen3-ASR 已启用。建议模型：Qwen/Qwen3-ASR-0.6B 或 Qwen/Qwen3-ASR-1.7B。若环境未安装 qwen-asr，任务会失败。"
+        return model_repo_id, language, info
+    if backend == "whisper_transformers":
+        if (not model_repo_id) or ("whisper" not in model_repo_id.lower()):
+            model_repo_id = "openai/whisper-small"
+        info = "Whisper Transformers 已启用。"
+        return model_repo_id, language or "zh", info
+    info = "backend=auto：会根据模型名自动选择适配器；模型名包含 qwen3-asr 时会走 Qwen3-ASR Adapter。"
+    return model_repo_id or "openai/whisper-small", language or "zh", info
+def run_hf_job(dataset_id, dataset_config, split, text_field, model_repo_id, backend, language, num_samples):
+    model_repo_id, language, preset_info = apply_backend_preset(backend, model_repo_id, language)
     cmd = [
         sys.executable,
         "scripts/run_hf_job.py",
         "--split", split.strip(),
         "--text_field", text_field.strip(),
         "--model_repo_id", model_repo_id.strip(),
+        "--backend", str(backend).strip(),
         "--language", language.strip(),
         "--num", str(int(num_samples)),
     ]
     p = subprocess.run(cmd, capture_output=True, text=True)
     out = (p.stdout or "") + ("\n" + (p.stderr or "") if p.stderr else "")
     if p.returncode != 0:
+        out = preset_info + "\n\n" + out
         out += "\n\n[HINT] If you see 401/403 for Common Voice: set HF_TOKEN in Space Settings → Secrets, and accept dataset terms on HF."
         empty = pd.DataFrame()
         return out, gr.update(), "", empty, empty, empty, "", "No diagnostic report yet.", gr.update(), gr.update()
     else:
         md, align_view, events_view, semantic_view, semantic_md, diagnostic_text, type_dd, domain_dd = "", pd.DataFrame(), pd.DataFrame(), pd.DataFrame(), "", "No diagnostic report yet.", gr.update(), gr.update()
+    out = preset_info + "\n\n" + out
     return out, gr.update(choices=runs, value=latest), md, align_view, events_view, semantic_view, semantic_md, diagnostic_text, type_dd, domain_dd
     with gr.Accordion("Run from Hugging Face", open=True):
         gr.Markdown(
+            "Fill in a dataset and an ASR model, then click **Run**. "
             "If the dataset is gated, set `HF_TOKEN` in Space **Settings → Secrets**. "
             "For LLM semantic diagnostics, make sure `OPENAI_API_KEY` is available."
         )
             num_samples = gr.Number(label="Num samples", value=50, precision=0)
         with gr.Row():
             model_repo_id = gr.Textbox(label="HF model repo id", value="openai/whisper-small")
+            backend = gr.Dropdown(label="ASR backend", choices=["auto", "whisper_transformers", "qwen3_asr"], value="auto")
             language = gr.Textbox(label="Language", value="zh")
         run_btn = gr.Button("Run")
+        backend_info = gr.Markdown("backend=auto：会根据模型名自动选择适配器；模型名包含 qwen3-asr 时会走 Qwen3-ASR Adapter。")
         logs = gr.Textbox(label="Logs", lines=16)
     gr.Markdown("## Browse Existing Runs")
         semantic_type.choices = type0["choices"]
         semantic_domain.choices = domain0["choices"]
+    backend.change(apply_backend_preset, inputs=[backend, model_repo_id, language], outputs=[model_repo_id, language, backend_info])
     run_dd.change(
         on_select_run,
         inputs=[run_dd],
     run_btn.click(
         run_hf_job,
+        inputs=[dataset_id, dataset_config, split, text_field, model_repo_id, backend, language, num_samples],
         outputs=[logs, run_dd, summary_md, align_tbl, events_tbl, semantic_tbl, semantic_overview_md, diagnostic_md, semantic_type, semantic_domain],
     )