Item

Reinforcement learning with human feedback (Q2177)

Revision as of 12:51, 13 October 2025 by Leonie (talk | contribs) (‎Created claim: depends on (P1): Machine learning (Q2167))
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

Training a model using human preferences

RLHF

Language	Label	Description	Also known as
English	Reinforcement learning with human feedback	Training a model using human preferences	RLHF

Statements

Machine learning

0 references

Retrieved from "https://graphit.ur.de/w/index.php?title=Item:Q2177&oldid=18559"