Spaces:

GhostScientist
/

qwen-coder-assistant

Running on Zero

GhostScientist commited on 3 days ago

Commit

9dd73f1

verified ·

1 Parent(s): 5a4b365

Upload folder using huggingface_hub

Files changed (2) hide show

app.py CHANGED Viewed

@@ -2,17 +2,21 @@ import gradio as gr
 import spaces
 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer
 MODEL_ID = "GhostScientist/qwen25-coder-1.5b-codealpaca-sft"
-# Load tokenizer at startup
 tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
-# Load model at startup (will be moved to GPU when @spaces.GPU is called)
-model = AutoModelForCausalLM.from_pretrained(
-    MODEL_ID,
     torch_dtype=torch.float16,
 )
 @spaces.GPU
 def generate_response(message, history, system_message, max_tokens, temperature, top_p):

 import spaces
 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer
+from peft import PeftModel
 MODEL_ID = "GhostScientist/qwen25-coder-1.5b-codealpaca-sft"
+BASE_MODEL_ID = "Qwen/Qwen2.5-Coder-1.5B-Instruct"
+# Load tokenizer
 tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
+# Load base model and apply adapter
+base_model = AutoModelForCausalLM.from_pretrained(
+    BASE_MODEL_ID,
     torch_dtype=torch.float16,
 )
+model = PeftModel.from_pretrained(base_model, MODEL_ID)
+model = model.merge_and_unload()  # Merge adapter for faster inference
 @spaces.GPU
 def generate_response(message, history, system_message, max_tokens, temperature, top_p):

requirements.txt CHANGED Viewed

@@ -2,3 +2,4 @@ gradio>=5.0.0
 torch
 transformers
 accelerate

 torch
 transformers
 accelerate
+peft