Crossmark

A framework for mitigating malicious RLHF feedback in LLM training using consensus based reward

Published Online: 2025-03-17

Authors

Haider, Zafaryab

Rahman, Md Hafizur

Devabhaktuni, Vijay

Moeykens, Shane

Chakraborty, Prabuddha
License Information

Text and Data Mining valid from 2025-03-17

Version of Record valid from 2025-03-17
More Information

Article History

Received: 29 December 2024

Accepted: 3 March 2025

First Online: 17 March 2025

Declarations

:

: The authors declare no competing interests.

Document is current