Large Language Model2 StepTool: A Step-grained Reinforcement Learning Framework for Tool Learning in LLMs Link: https://arxiv.org/pdf/2410.07745깃허브: https://github.com/yuyq18/StepTool0. Abstract대형 언어 모델 (Large Language Model, LLM)의 강력한 논리 및 추론 능력에도 불구하고 LLM은 여전히 복잡한 문제를 풀기 위해 실시간 정보 검색이나 특정 도메인의 전문 지식을 필요로 함 → 이를 도구 학습 (Tool Learning)이라고 함기존 tool learning 기법들의 한계주로 전문가의 도구 선택 과정을 언어적 관점에서 토큰 시퀀스를 학습하는 방식으로 튜닝이 방식은 정적인 선택 과정을 모방하므로 새로운 문제에 대해 일반화하는 능력이 제한됨또한 전문가의 도구 선택 과정이 최적이 아니고 더 나은 방법이 있을 가능성이 있음.. 2025. 2. 15. Guiding Pretraining in Reinforcement Learning with Large Language Models Paper: https://arxiv.org/pdf/2302.06692.pdf0. Abstract강화학습 알고리즘은 밀집되고 (dense) 잘 형성된 보상 함수가 없는 것이 일반적인 문제점이런 한계를 극복하기 위해 내적 동기부여 (intrinsically motivated) 탐험 기법이 사용됨 → 에이전트가 새로운 상태에 방문하는 경우 보상을 제공하지만 이런 방법은 매우 규모가 큰 환경에서 탐색된 새로운 상태가 실제 문제 해결과 무관한 경우가 많을 때에는 별 도움이 되지 못함본 논문에서는 탐험을 위한 사전 지식으로 텍스트 정보를 사용하는 기법을 제안 → ELLM (Exploring with LLMs)에이전트의 현재 상태를 묘사한 정보를 프롬프트로 한 언어 모델이 제안한 목표를 달성하는 경우 보상 제공대규.. 2024. 11. 21. 이전 1 다음 반응형