Yi Zeng's picture

2 12

Yi Zeng

yizeng

·

AI & ML interests

None yet

Organizations

upvoted a paper 11 months ago

DuoGuard: A Two-Player RL-Driven Framework for Multilingual LLM Guardrails

Paper • 2502.05163 • Published Feb 7, 2025 • 22

upvoted a collection over 1 year ago

BEEAR

These models are used for re-implementation of our paper: "BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction" • 8 items • Updated Jun 28, 2024 • 2