Reinforcement learning with human feedback (Q2177): Difference between revisions

Latest revision as of 12:51, 13 October 2025

Training a model using human preferences

Language	Label	Description	Also known as
English	Reinforcement learning with human feedback	Training a model using human preferences	RLHF

0 references

Revision as of 10:09, 13 October 2025 Leonie (talk \| contribs) (‎Created a new Item)	Latest revision as of 12:51, 13 October 2025 Leonie (talk \| contribs) (‎Created claim: depends on (P1): Machine learning (Q2167))
	Property / depends on
		Machine learning
	Property / depends on: Machine learning / rank
		Normal rank