Spaces:

Andy0830
/

SYSTEM

Running

App Files Files Community

Andy0830 commited on 15 days ago

Commit

ef488f7

verified ·

1 Parent(s): d4775c3

Update app.py

Browse files

Files changed (1) hide show

app.py +70 -57

app.py CHANGED Viewed

@@ -4,97 +4,114 @@ from sentence_transformers import SentenceTransformer, util
 import torch
 import os
 import sys
-import gc # 引入垃圾回收機制
 # --- 系統設定 ---
 SYSTEM_TITLE = "花蓮慈濟醫院公文輔助判決系統"
 FILE_PATH = 'data.csv'
-# --- 1. 讀取資料 (維持 CP950 強制讀取) ---
-print("🚀 正在啟動輕量模式...準備讀取 CSV")
 if not os.path.exists(FILE_PATH):
     print(f"❌ 錯誤：找不到 {FILE_PATH}")
     sys.exit(1)
 try:
-    # 讀取 CSV
     df = pd.read_csv(FILE_PATH, encoding='cp950')
-    print("✅ 資料讀取成功 (cp950)")
 except UnicodeDecodeError:
     try:
         df = pd.read_csv(FILE_PATH, encoding='big5')
-        print("✅ 資料讀取成功 (big5)")
-    except Exception as e:
-        print(f"❌ 讀取失敗: {e}")
         df = pd.DataFrame()
-except Exception as e:
-    print(f"❌ 未知錯誤: {e}")
     df = pd.DataFrame()
 # --- 2. 資料清洗 ---
 if not df.empty:
-    # 欄位名稱標準化
     df.columns = [str(c).strip().replace('\ufeff', '') for c in df.columns]
-    # 自動對應欄位
     for col in df.columns:
         if '主旨' in col or '內容' in col: df.rename(columns={col: '主旨'}, inplace=True)
         if '窗口' in col or '單位' in col: df.rename(columns={col: '收文窗口'}, inplace=True)
-    # 移除空值與重複值 (減少資料量，提升速度)
-    original_len = len(df)
     df = df.dropna(subset=['主旨', '收文窗口'])
-    # df = df.drop_duplicates(subset=['主旨']) # 視情況開啟，可進一步瘦身
-    print(f"📊 有效資料共 {len(df)} 筆 (已過濾無效資料)")
 else:
     print("❌ 資料表是空的！")
-# --- 3. 載入模型 (關鍵修改：換成輕量版 Small 模型) ---
-print("🧠 正在載入輕量版模型 (BAAI/bge-small-zh-v1.5)...")
-# 改用 Small 版本，速度快 3 倍，記憶體佔用極低
-model_name = 'BAAI/bge-small-zh-v1.5'
-model = SentenceTransformer(model_name)
-if not df.empty and '主旨' in df.columns:
-    print(f"⚡ 正在建立索引 (共 {len(df)} 筆)...")
-    corpus = df['主旨'].tolist()
-    try:
-        # ▼▼▼ 極致優化：batch_size=16 ▼▼▼
-        corpus_embeddings = model.encode(
-            corpus,
-            batch_size=16, # 每次只處理 16 筆，極度安全
-            show_progress_bar=True,
-            convert_to_tensor=True,
-            normalize_embeddings=True # 正規化，提升比對準度
-        )
-        print("✅ 索引建立完成！系統已就緒。")
-        # 強制清理記憶體
-        gc.collect()
-    except Exception as e:
-        print(f"❌ 建立索引失敗: {e}")
-        corpus_embeddings = None
-else:
-    print("❌ 無法建立索引")
-    corpus = []
-    corpus_embeddings = None
-# --- 4. 定義搜尋功能 ---
 def search_department(query):
     if corpus_embeddings is None:
         return "⚠️ 系統初始化失敗，請檢查 Logs。"
     if not query.strip():
         return "請輸入公文主旨..."
-    # 搜尋
     query_embedding = model.encode(query, convert_to_tensor=True)
     cos_scores = util.cos_sim(query_embedding, corpus_embeddings)[0]
-    # 取前 3 名
     top_k = min(3, len(corpus))
     top_results = torch.topk(cos_scores, k=top_k)
@@ -106,13 +123,9 @@ def search_department(query):
             row = df.iloc[idx]
             score_val = score.item()
-            # 信心度 (Small 模型的門檻稍微調整)
-            if score_val > 0.7:
-                confidence = "⭐⭐⭐ 極高"
-            elif score_val > 0.55:
-                confidence = "⭐⭐ 高"
-            else:
-                confidence = "⭐ 參考"
             output_text += f"【推薦單位】：{row['收文窗口']}\n"
             output_text += f"  - 歷史案例：{row['主旨']}\n"
@@ -121,13 +134,13 @@ def search_department(query):
     return output_text
-# --- 5. 啟動介面 ---
 iface = gr.Interface(
     fn=search_department,
     inputs=gr.Textbox(lines=3, placeholder="請輸入公文主旨..."),
     outputs=gr.Textbox(lines=12, label="AI 判決建議"),
     title=SYSTEM_TITLE,
-    description=f"系統狀態：{'🟢 正常 (輕量模式)' if corpus_embeddings is not None else '🔴 異常'}\n資料庫收錄：{len(df)} 筆歷史資料",
     examples=[["檢送本署彙整人工生殖機構之捐贈生殖細胞使用情形"], ["函轉衛生局關於流感疫苗接種計畫"]]
 )

 import torch
 import os
 import sys
+import gc
+import time
 # --- 系統設定 ---
 SYSTEM_TITLE = "花蓮慈濟醫院公文輔助判決系統"
 FILE_PATH = 'data.csv'
+# ▼▼▼ 關鍵：定義索引檔案儲存路徑 ▼▼▼
+INDEX_FILE = 'corpus_embeddings.pt'
+# --- 1. 讀取資料 ---
+print("🚀 正在啟動快取模式...")
 if not os.path.exists(FILE_PATH):
     print(f"❌ 錯誤：找不到 {FILE_PATH}")
     sys.exit(1)
 try:
+    # 讀取檔案 (維持 CP950 容錯)
     df = pd.read_csv(FILE_PATH, encoding='cp950')
 except UnicodeDecodeError:
     try:
         df = pd.read_csv(FILE_PATH, encoding='big5')
+    except Exception:
         df = pd.DataFrame()
+except Exception:
     df = pd.DataFrame()
 # --- 2. 資料清洗 ---
 if not df.empty:
     df.columns = [str(c).strip().replace('\ufeff', '') for c in df.columns]
     for col in df.columns:
         if '主旨' in col or '內容' in col: df.rename(columns={col: '主旨'}, inplace=True)
         if '窗口' in col or '單位' in col: df.rename(columns={col: '收文窗口'}, inplace=True)
+    df['主旨'] = df['主旨'].astype(str)
+    df['收文窗口'] = df['收文窗口'].astype(str)
     df = df.dropna(subset=['主旨', '收文窗口'])
+    corpus = df['主旨'].tolist()
+    total_records = len(corpus)
+    print(f"📊 載入全量資料: {total_records} 筆")
 else:
     print("❌ 資料表是空的！")
+    corpus = []
+    total_records = 0
+# --- 3. 載入模型與建立索引 (關鍵：檢查快取) ---
+# 檢查模型是否已經載入
+model = None
+try:
+    print("🧠 正在載入模型 (BAAI/bge-small-zh-v1.5)...")
+    model = SentenceTransformer('BAAI/bge-small-zh-v1.5')
+except Exception as e:
+    print(f"❌ 模型載入失敗: {e}")
+corpus_embeddings = None
+if total_records > 0 and model is not None:
+    if os.path.exists(INDEX_FILE):
+        # 快取存在，直接載入，快速啟動！
+        print(f"⚡ 偵測到快取檔案 ({INDEX_FILE})，正在秒速載入...")
+        try:
+            corpus_embeddings = torch.load(INDEX_FILE)
+            print("✅ 索引載入完成，系統秒速啟動！")
+        except Exception as e:
+            print(f"❌ 快取檔案損壞，將重新計算索引。錯誤: {e}")
+            corpus_embeddings = None # 設為 None 重新計算
+    if corpus_embeddings is None:
+        # 第一次啟動或快取損壞，進行耗時的計算
+        print(f"🔥 第一次啟動或快取失效，開始分批計算索引 (這需要約 2-4 分鐘)...")
+        chunk_size = 500
+        embeddings_chunks = []
+        start_time = time.time()
+        try:
+            for i in range(0, total_records, chunk_size):
+                batch = corpus[i : i + chunk_size]
+                batch_emb = model.encode(batch, convert_to_tensor=True, show_progress_bar=False)
+                embeddings_chunks.append(batch_emb)
+                print(f"   -> 已處理 {min(i + chunk_size, total_records)} / {total_records} 筆...")
+                gc.collect()
+            # 合併與儲存
+            print("🔗 正在合併並儲存索引...")
+            corpus_embeddings = torch.cat(embeddings_chunks)
+            torch.save(corpus_embeddings, INDEX_FILE) # ▼▼▼ 儲存索引到硬碟 ▼▼▼
+            end_time = time.time()
+            print(f"✅ 全量索引計算並儲存完成！耗時 {int(end_time - start_time)} 秒。")
+        except Exception as e:
+            print(f"❌ 索引計算失敗 (可能記憶體不足): {e}")
+            corpus_embeddings = None
+# --- 4. 定義搜尋 ---
 def search_department(query):
+    # 這裡的邏輯與之前相同，不需要修改
     if corpus_embeddings is None:
         return "⚠️ 系統初始化失敗，請檢查 Logs。"
     if not query.strip():
         return "請輸入公文主旨..."
     query_embedding = model.encode(query, convert_to_tensor=True)
     cos_scores = util.cos_sim(query_embedding, corpus_embeddings)[0]
     top_k = min(3, len(corpus))
     top_results = torch.topk(cos_scores, k=top_k)
             row = df.iloc[idx]
             score_val = score.item()
+            if score_val > 0.7: confidence = "⭐⭐⭐ 極高"
+            elif score_val > 0.55: confidence = "⭐⭐ 高"
+            else: confidence = "⭐ 參考"
             output_text += f"【推薦單位】：{row['收文窗口']}\n"
             output_text += f"  - 歷史案例：{row['主旨']}\n"
     return output_text
+# --- 5. 介面 ---
 iface = gr.Interface(
     fn=search_department,
     inputs=gr.Textbox(lines=3, placeholder="請輸入公文主旨..."),
     outputs=gr.Textbox(lines=12, label="AI 判決建議"),
     title=SYSTEM_TITLE,
+    description=f"系統狀態：{'🟢 快取就緒' if corpus_embeddings is not None else '🔴 索引失敗'}\n資料庫完整收錄：{total_records} 筆歷史資料 (無刪減)",
     examples=[["檢送本署彙整人工生殖機構之捐贈生殖細胞使用情形"], ["函轉衛生局關於流感疫苗接種計畫"]]
 )