Spaces:

jerrychen428
/

Fraud-Detection_BERT_grado

Sleeping

App Files Files Community

jerrychen428 commited on Jun 21

Commit

112585f

verified ·

1 Parent(s): b5ab083

Create Fraud_Detection_BERT_grado_6.py

Browse files

Files changed (1) hide show

Fraud_Detection_BERT_grado_6.py +138 -0

Fraud_Detection_BERT_grado_6.py ADDED Viewed

	@@ -0,0 +1,138 @@

+import torch
+import pandas as pd
+from transformers import BertTokenizer, BertForSequenceClassification, Trainer, TrainingArguments
+from torch.utils.data import Dataset
+from sklearn.model_selection import train_test_split
+from sklearn.metrics import accuracy_score, precision_recall_fscore_support
+import gradio as gr
+class FinancialFraudDataset(Dataset):
+    """
+    自定義 Dataset 類別，用於將文本和標籤轉換為 PyTorch 能處理的格式。
+    """
+    def __init__(self, encodings, labels):
+        self.encodings = encodings
+        self.labels = labels
+    def __len__(self):
+        return len(self.labels)
+    def __getitem__(self, idx):
+        # 將每筆資料轉換為 tensor，包含 token 編碼及對應的標籤
+        item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
+        item["labels"] = torch.tensor(self.labels[idx])
+        return item
+class FinancialFraudTrainer:
+    def __init__(self, data_path="./fraud_detection_sample.csv"):
+        self.data_path = data_path
+        self.train_texts = None
+        self.val_texts = None
+        self.train_labels = None
+        self.val_labels = None
+        self.tokenizer = None
+        self.train_dataset = None
+        self.val_dataset = None
+        self.model = None
+    def prepare_dataset(self):
+        # 讀取 CSV 檔案，使用 UTF-8 編碼
+        df = pd.read_csv(self.data_path, encoding="utf-8")
+        # 分割為訓練集與驗證集
+        self.train_texts, self.val_texts, self.train_labels, self.val_labels = train_test_split(
+            df['text'].tolist(), df['label'].tolist(), test_size=0.2, random_state=42)
+    def tokenize_data(self):
+        # 載入中文 RoBERTa tokenizer
+        self.tokenizer = BertTokenizer.from_pretrained("hfl/chinese-roberta-wwm-ext")
+        # 對訓練與驗證文本進行編碼
+        train_encodings = self.tokenizer(self.train_texts, truncation=True, padding=True, max_length=128)
+        val_encodings = self.tokenizer(self.val_texts, truncation=True, padding=True, max_length=128)
+        # 封裝成 Dataset
+        self.train_dataset = FinancialFraudDataset(train_encodings, self.train_labels)
+        self.val_dataset = FinancialFraudDataset(val_encodings, self.val_labels)
+    def load_model(self):
+        # 載入中文 RoBERTa 分類模型，設定分類數為 2（合法 / 詐騙）
+        self.model = BertForSequenceClassification.from_pretrained("hfl/chinese-roberta-wwm-ext", num_labels=2)
+    def train_model(self):
+        # 設定訓練參數
+        training_args = TrainingArguments(
+            output_dir="./results",                # 訓練結果儲存位置
+            num_train_epochs=20,                    # 訓練輪數
+            per_device_train_batch_size=4,          # 每批訓練數量
+            per_device_eval_batch_size=4,           # 每批驗證數量
+            warmup_steps=10,                         # 預熱步驟數
+            weight_decay=0.01,                       # 權重衰退
+            logging_dir="./logs",                  # 日誌儲存位置
+            logging_steps=10,                        # 日誌紀錄頻率
+            report_to="none"                         # 不使用外部工具報告訓練過程
+        )
+        # 定義 Trainer
+        trainer = Trainer(
+            model=self.model,
+            args=training_args,
+            train_dataset=self.train_dataset,
+            eval_dataset=self.val_dataset,
+            compute_metrics=self.compute_metrics   # 計算評估指標
+        )
+        # 執行訓練
+        trainer.train()
+    def compute_metrics(self, pred):
+        # 計算 accuracy、precision、recall、F1 分數
+        labels = pred.label_ids
+        preds = pred.predictions.argmax(-1)
+        acc = accuracy_score(labels, preds)
+        precision, recall, f1, _ = precision_recall_fscore_support(labels, preds, average="binary")
+        return {"accuracy": acc, "precision": precision, "recall": recall, "f1": f1}
+    def save_model(self):
+        # 儲存模型與 tokenizer
+        self.model.save_pretrained("fraud_bert_model")
+        self.tokenizer.save_pretrained("fraud_bert_model")
+    def load_saved_model(self):
+        # 重新載入已儲存的模型與 tokenizer，供推論使用
+        self.model = BertForSequenceClassification.from_pretrained("fraud_bert_model")
+        self.tokenizer = BertTokenizer.from_pretrained("fraud_bert_model")
+        self.model.eval()
+    def predict_transaction(self, text):
+        # 單筆推論用，回傳預測結果與信心分數
+        try:
+            self.model.eval()
+            inputs = self.tokenizer(text, return_tensors="pt", truncation=True, padding=True, max_length=128)
+            with torch.no_grad():
+                outputs = self.model(**inputs)
+                probs = torch.softmax(outputs.logits, dim=1)  # 機率分布
+                prediction = torch.argmax(probs, dim=1).item()
+                confidence = probs[0][prediction].item()
+            label = "✅ Legitimate" if prediction == 0 else "⚠️ Fraudulent"
+            return f"{label}  (Confidence: {confidence:.2f})"
+        except Exception as e:
+            return f"Error: {str(e)}"
+    def launch_gradio(self):
+        # 使用 Gradio 部署網頁介面
+        gr.Interface(
+            fn=self.predict_transaction,   # 指定推論函式
+            inputs=gr.Textbox(lines=3, placeholder="輸入交易簡訊..."),
+            outputs="text",
+            title="💳 中英文詐騙簡訊判斷器",
+            description="輸入交易相關訊息，判斷是否為詐騙訊息（支援中文與英文）。"
+        ).launch(share=True, debug=True) # 如果防毒軟體會報錯，請將share=True, debug=True改為share=False
+if __name__ == "__main__":
+    # 建立 Trainer 實例
+    trainer = FinancialFraudTrainer()
+    trainer.prepare_dataset()       # 資料前處理
+    trainer.tokenize_data()         # 文字編碼
+    trainer.load_model()            # 載入模型
+    trainer.train_model()           # 模型訓練
+    trainer.save_model()            # 儲存模型
+    trainer.load_saved_model()      # 載入模型供預測
+    trainer.launch_gradio()         # 啟動 Gradio 網頁介面