로그인
무료 평가판 시작
메뉴
RLHF로 훈련된 AI 시스템은 평균적인 인간 선호도에서 높은 점수를 받는 출력을 생성할 때 체계적으로 보상받으며, 이는 수학적으로 그들을 창의적 평범함으로 이끌게 됩니다. 본 논문은 B+ 함정을 정의하고, RLHF를 구조적 메커니즘으로 규명하며, 참신성 탐색, 적대적 발산 에이전트, 메타인지적 피드백을 기반으로 구축된 반항적 AI 프레임워크를 제안합니다.