Spaces:

librarian-bots
/

dataset-card-drafter

Running

davanstrien HF Staff Claude Opus 4.5 commited on 3 days ago

Commit

afeeac0

1 Parent(s): fbc8ccb

Use separate tokens for inference and PR creation

- HF_TOKEN: for inference API calls (davanstrien)
- LIBRARIAN_BOT_TOKEN: for opening PRs (librarian-bot)

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude Opus 4.5 <[email protected]>

Files changed (2) hide show

.beads/issues.jsonl +1 -1
app.py +27 -13

.beads/issues.jsonl CHANGED Viewed

	@@ -1,2 +1,2 @@
1	- {"id":"dataset-card-drafter-ebu","title":"Add PR deduplication logic","description":"Multiple PRs being opened for same dataset. Need to check for existing open PRs before creating new ones.","status":"~~in_progress~~","priority":1,"issue_type":"bug","created_at":"2025-12-15T17:43:02.474669Z","updated_at":"2025-12-15T17:45:54.~~45933Z~~"}
2	{"id":"dataset-card-drafter-wbd","title":"MVP implementation: WebhooksServer + DatasetCard + InferenceClient","description":"","status":"closed","priority":1,"issue_type":"feature","created_at":"2025-12-15T17:24:36.365733Z","updated_at":"2025-12-15T17:28:21.127763Z","closed_at":"2025-12-15T17:28:21.127763Z","close_reason":"MVP implemented with WebhooksServer, DatasetCard, and InferenceClient"}


1	+ {"id":"dataset-card-drafter-ebu","title":"Add PR deduplication logic","description":"Multiple PRs being opened for same dataset. Need to check for existing open PRs before creating new ones.","status":"closed","priority":1,"issue_type":"bug","created_at":"2025-12-15T17:43:02.474669Z","updated_at":"2025-12-15T17:48:03.770007Z","closed_at":"2025-12-15T17:48:03.770007Z","close_reason":"Added has_existing_pr() check using get_repo_discussions + improved PR description"}
2	{"id":"dataset-card-drafter-wbd","title":"MVP implementation: WebhooksServer + DatasetCard + InferenceClient","description":"","status":"closed","priority":1,"issue_type":"feature","created_at":"2025-12-15T17:24:36.365733Z","updated_at":"2025-12-15T17:28:21.127763Z","closed_at":"2025-12-15T17:28:21.127763Z","close_reason":"MVP implemented with WebhooksServer, DatasetCard, and InferenceClient"}

app.py CHANGED Viewed

@@ -92,9 +92,14 @@ This PR was automatically generated by the [Dataset Card Drafter]({SPACE_URL}) S
 *Generated by [{BOT_NAME}]({SPACE_URL})*"""
-async def process_dataset(dataset_id: str, hf_token: str) -> dict:
     """Process a single dataset: check, generate, and open PR.
     Returns a status dict with results.
     """
     # Check for existing open PR first
@@ -111,16 +116,16 @@ async def process_dataset(dataset_id: str, hf_token: str) -> dict:
     if not should_generate(card):
         return {"status": "skipped", "reason": "description exists"}
-    # Generate description
     try:
-        description = generate_description(dataset_id, hf_token)
     except Exception as e:
         return {"status": "error", "reason": f"generation failed: {e}"}
     if not description:
         return {"status": "error", "reason": "empty description generated"}
-    # Update card and push as PR
     card.text = description
     try:
@@ -130,7 +135,7 @@ async def process_dataset(dataset_id: str, hf_token: str) -> dict:
             commit_message=PR_TITLE,
             commit_description=build_pr_description(description),
             create_pr=True,
-            token=hf_token,
         )
         pr_url = getattr(commit_info, "pr_url", str(commit_info))
     except Exception as e:
@@ -188,7 +193,8 @@ with gr.Blocks(title="Dataset Card Drafter") as demo:
     with gr.Tab("Trigger PR"):
         gr.Markdown(
             "Manually trigger description generation and PR creation.\n\n"
-            "**Warning:** This will open a real PR!"
         )
         trigger_input = gr.Textbox(
             label="Dataset ID",
@@ -201,11 +207,15 @@ with gr.Blocks(title="Dataset Card Drafter") as demo:
             if not dataset_id:
                 return {"status": "error", "reason": "no dataset ID provided"}
-            hf_token = os.getenv("HF_TOKEN")
-            if not hf_token:
                 return {"status": "error", "reason": "HF_TOKEN not set"}
-            result = await process_dataset(dataset_id, hf_token)
             # Save to processed log
             if result.get("status") == "pr_created":
@@ -244,13 +254,17 @@ async def handle_dataset_webhook(payload: WebhookPayload) -> dict:
     dataset_id = payload.repo.name
-    # Get token
-    hf_token = os.getenv("HF_TOKEN")
-    if not hf_token:
         return {"status": "error", "reason": "HF_TOKEN not configured"}
     # Process the dataset
-    result = await process_dataset(dataset_id, hf_token)
     # Save to processed log
     processed = load_processed()

 *Generated by [{BOT_NAME}]({SPACE_URL})*"""
+async def process_dataset(dataset_id: str, inference_token: str, pr_token: str) -> dict:
     """Process a single dataset: check, generate, and open PR.
+    Args:
+        dataset_id: The dataset to process
+        inference_token: Token for inference API calls (e.g., davanstrien's token)
+        pr_token: Token for opening PRs (librarian-bot's token)
     Returns a status dict with results.
     """
     # Check for existing open PR first
     if not should_generate(card):
         return {"status": "skipped", "reason": "description exists"}
+    # Generate description using inference token
     try:
+        description = generate_description(dataset_id, inference_token)
     except Exception as e:
         return {"status": "error", "reason": f"generation failed: {e}"}
     if not description:
         return {"status": "error", "reason": "empty description generated"}
+    # Update card and push as PR using librarian-bot token
     card.text = description
     try:
             commit_message=PR_TITLE,
             commit_description=build_pr_description(description),
             create_pr=True,
+            token=pr_token,
         )
         pr_url = getattr(commit_info, "pr_url", str(commit_info))
     except Exception as e:
     with gr.Tab("Trigger PR"):
         gr.Markdown(
             "Manually trigger description generation and PR creation.\n\n"
+            "**Warning:** This will open a real PR!\n\n"
+            "Requires `HF_TOKEN` (for inference) and `LIBRARIAN_BOT_TOKEN` (for PRs)."
         )
         trigger_input = gr.Textbox(
             label="Dataset ID",
             if not dataset_id:
                 return {"status": "error", "reason": "no dataset ID provided"}
+            inference_token = os.getenv("HF_TOKEN")
+            pr_token = os.getenv("LIBRARIAN_BOT_TOKEN")
+            if not inference_token:
                 return {"status": "error", "reason": "HF_TOKEN not set"}
+            if not pr_token:
+                return {"status": "error", "reason": "LIBRARIAN_BOT_TOKEN not set"}
+            result = await process_dataset(dataset_id, inference_token, pr_token)
             # Save to processed log
             if result.get("status") == "pr_created":
     dataset_id = payload.repo.name
+    # Get tokens
+    inference_token = os.getenv("HF_TOKEN")
+    pr_token = os.getenv("LIBRARIAN_BOT_TOKEN")
+    if not inference_token:
         return {"status": "error", "reason": "HF_TOKEN not configured"}
+    if not pr_token:
+        return {"status": "error", "reason": "LIBRARIAN_BOT_TOKEN not configured"}
     # Process the dataset
+    result = await process_dataset(dataset_id, inference_token, pr_token)
     # Save to processed log
     processed = load_processed()