Selective Preference Optimization via Token-Level Reward Function Estimation
| Tipo de publicação: | Inproceedings |
| Citação: | yang:2025 |
| Publication status: | Accepted |
| Booktitle: | Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing (EMNLP) |
| Ano: | In Press |
| URL: | https://arxiv.org/abs/2408.135... |
| Palavras-chave: | |
| Autores | |
| Adicionado por: | [PRT] |
| Total mark: | 0 |
|
Anexos
|
|
|
Notas
|
|
|
|
|
|
Tópicos
|
|
|
|
|
