Terminal Agent로 Claude Code(클로드 코드)를 쓰는데 자꾸 렌더링 오류가 나서 찾아본 해결 방법. Cursor(커서) 문제인지 알고 VScode 써봤는데 똑같은 문제가 생겨서 찾아봤는데, 결론만 말하면 GPU 잡았을 때 Auto로 작동하는 GPU Acceleration 문제.1. VS Code, Cursor IDE터미널 렌더링 방식 변경- 방법 1VS Code의 통합 터미널이 GPU 가속을 사용하는 과정에서 블록 요소나 배경색을 잘못 렌더링하는 경우가 많습니다.Ctrl + , (Windows) 또는 Cmd + , (Mac)를 눌러 Settings를 엽니다.검색창에 terminal.integrated.gpuAcceleration을 입력합니다.설정값을 auto나 on에서 off로 변경해 ..
최근 읽은 논문 SmolVLA: A Data-Efficient Vision-Language-Action Model을 개인 아카이브용으로 정리한다.이 논문은 small-scale VLA 모델이 어떻게 대형 모델에 근접한 성능을 낼 수 있는지를 탐구하며, 특히 data efficiency와 architecture simplicity에 초점을 둔다.arXiv: https://arxiv.org/abs/2506.01844Motivation: Bigger is always better?최근 VLA 연구 흐름은 점점 **larger backbone (7B, 13B, multimodal LLM)**을 사용하는 방향으로 발전해왔다.그러나 실제 robotics setting에서는 다음과 같은 문제가 있다:대형 모델은 tr..
이 글은 월드 모델과 로보틱스에서 가장 본질적인 문제인 Data Problem을 다루는 글이다. 로봇 데이터는 수집 비용과 다양성 측면에서 근본적인 한계가 있으며, 이를 해결할 수 있는 유일하게 확장 가능한 해법은 인간의 방대한 물리적 경험(특히 egocentric 비디오)이라는 주장을 한다. 저자는 관측→행동 매핑 대신 월드 모델을 통해 물리 세계의 변화와 인과관계를 학습해야 하며, 이렇게 학습된 인간 기반 월드 모델이 로봇으로 전이될 때 가장 효율적인 형태가 휴머노이드일 가능성이 높다고 본다. 궁극적으로 Physical AGI로 가는 길은 인간 경험으로 학습된 월드 모델을 중심으로 열린다는 비전을 제시한다.Title: World Models and the Data Problem in Robotics ..
이 논문은 Vision-Language Models (VLM)를 Vision-Language-Action (VLA) 정책에 사용할 때 어떤 점이 중요한지, 그리고 VLM 자체의 능력이 VLA downstream task 수행에 어떻게 영향을 미치는지를 systematic하게 재검토한다.arXiv: https://arxiv.org/abs/2601.03309Project Page: https://cladernyjorn.github.io/VLM4VLA.github.io/Motivation: 기본 질문 — VLM은 VLA에 얼마나 도움이 될까?Vision-Language-Action (VLA) 모델은 비전 + 언어 기반으로 embodied action planning을 목표로 하는 모델들이다. VLM(Visua..
이 논문은 cross-embodiment videos (human + robot)를 활용해, 소량의 demonstration만으로도 로봇 manipulation을 학습할 수 있는 새로운 world model을 제안한다.arXiv: https://arxiv.org/abs/2511.21690Project Page: https://tracegen.github.io/Motivation: 왜 새로운 representation이 필요한가?로봇 manipulation에서 항상 부딪히는 문제는 data scarcity다.새로운 robot, 새로운 environment마다robot demonstration을 직접 수집해야 함반면 human videos는 매우 풍부하지만embodiment differencecamera d..
보호되어 있는 글입니다.
