搜索

Maosong Sun

Process reinforcement through implicit rewards.
Advancing LLM Reasoning Generalists with Preference Trees
Empowering private tutoring by chaining large language models.
Enhancing Chat Language Models by Scaling High-quality Instructional Conversations
Sparse Low-rank Adaptation of Pre-trained Language Models

由Wowchemy支持发布——免费开源网站，为创作者赋能。