Selective Preference Optimization via Token-Level Reward Function Estimation
| Publicatietype: | Divers |
| Citatie: | yang:2024b |
| Jaar: | 2024 |
| Hoe_uitgegeven: | arXiv |
| URL: | https://arxiv.org/abs/2408.135... |
| Trefwoorden: | |
| Auteurs | |
| Toegevoegd door: | [PRT] |
| Totaalscore: | 0 |
|
Bestanden
|
|
|
Aantekeningen
|
|
|
|
|
|
Onderwerpen
|
|
|
|
|
