LLM4 [MCP Study] 3. Smithery MCP 서버 사용하기 ⛔️ MCP의 내용을 개인적으로 스터디 하면서 정리한 자료입니다! 혹시 잘못된 내용이나 오타, 개선할 사항이 있으시면 편하게 댓글 남겨주세요! 🙇♂️⛳️ 목표!Smithery의 MCP 서버를 사용하여 간단하게 MCP 도구 추가하기! 🍽️ 사전 준비 사항사전 준비 사항은 이전 글인 “1개의 MCP 서버와 클라이언트 통신하기”의 내용과 동일합니다. 🛠️ 실습 내용⛏️ Smithery 사용하기이번 내용에서는 직접 구현한 MCP 서버가 아니라 Smithery의 MCP 서버를 사용하는 내용을 살펴보겠습니다.먼저 Smithery 공식 웹사이트 (https://smithery.ai/)에 접속합니다.Smithery 웹 사이트에는 아래와 같이 많은 MCP 서버들이 있는 것을 볼 수 있습니다!! 🫢먼저 우.. 2025. 5. 23. SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training Link: https://arxiv.org/pdf/2501.171610. Abstract지도 파인튜닝 (Supervised Fine-tuning, SFT)와 강화학습 (Reinforcement Learning, RL)은 기반 모델 (Foundation Model)의 사후 학습 (Post-training)을 위해 널리 사용되는 기법들그러나 모델의 일반성 (Generalization) 향상을 위한 각 모델의 역할은 아직 불분명함본 논문에서는 SFT와 RL의 일반성과 기억력 (memorization)에 대한 효과를 비교 → 텍스트 기반과 시각적 환경두개의 검증 환경 사용GeneralPoints: 수학적 추론이 필요한 카드 게임V-IRL: 실제 네비게이션 환경 → SFT과 RL로 학습된 모델이 텍스트와 이미지 .. 2025. 2. 28. StepTool: A Step-grained Reinforcement Learning Framework for Tool Learning in LLMs Link: https://arxiv.org/pdf/2410.07745깃허브: https://github.com/yuyq18/StepTool0. Abstract대형 언어 모델 (Large Language Model, LLM)의 강력한 논리 및 추론 능력에도 불구하고 LLM은 여전히 복잡한 문제를 풀기 위해 실시간 정보 검색이나 특정 도메인의 전문 지식을 필요로 함 → 이를 도구 학습 (Tool Learning)이라고 함기존 tool learning 기법들의 한계주로 전문가의 도구 선택 과정을 언어적 관점에서 토큰 시퀀스를 학습하는 방식으로 튜닝이 방식은 정적인 선택 과정을 모방하므로 새로운 문제에 대해 일반화하는 능력이 제한됨또한 전문가의 도구 선택 과정이 최적이 아니고 더 나은 방법이 있을 가능성이 있음.. 2025. 2. 15. Guiding Pretraining in Reinforcement Learning with Large Language Models Paper: https://arxiv.org/pdf/2302.06692.pdf0. Abstract강화학습 알고리즘은 밀집되고 (dense) 잘 형성된 보상 함수가 없는 것이 일반적인 문제점이런 한계를 극복하기 위해 내적 동기부여 (intrinsically motivated) 탐험 기법이 사용됨 → 에이전트가 새로운 상태에 방문하는 경우 보상을 제공하지만 이런 방법은 매우 규모가 큰 환경에서 탐색된 새로운 상태가 실제 문제 해결과 무관한 경우가 많을 때에는 별 도움이 되지 못함본 논문에서는 탐험을 위한 사전 지식으로 텍스트 정보를 사용하는 기법을 제안 → ELLM (Exploring with LLMs)에이전트의 현재 상태를 묘사한 정보를 프롬프트로 한 언어 모델이 제안한 목표를 달성하는 경우 보상 제공대규.. 2024. 11. 21. 이전 1 다음 반응형