Item

Reinforcement learning with human feedback (Q2177)

Revision as of 10:09, 13 October 2025 by Leonie (talk | contribs) (‎Created a new Item)
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

Training a model using human preferences

RLHF

Language	Label	Description	Also known as
English	Reinforcement learning with human feedback	Training a model using human preferences	RLHF

Statements

Retrieved from "https://graphit.ur.de/w/index.php?title=Item:Q2177&oldid=17534"