Rlhf

3 articles

All articles 3 total

Deep Reinforcement Learning How deep RL algorithms like DQN, PPO, and A3C combine neural networks … Glossary

Added 28 Mar · Upd 30 May ·3 min

Direct Preference Optimization (DPO) An alignment method that fine-tunes language models directly on … Glossary

Added 8 May · Upd 30 May ·6 min

Reinforcement Learning What reinforcement learning is, how agents learn from rewards, and where … Glossary

Added 28 Mar · Upd 30 May ·3 min

Open source projects

Freelancer Templates Contracts, proposals, SOWs

Freelancer Automation Workflow recipes, AI playbooks

Work with Linda

Workshop Series €2,000/mo x 3

1:1 Consulting 60 min session