AIAI 기술의 새로운 이정표: Claude, '사람처럼' 컴퓨터를 사용하기 시작하다

Ian, cho
2024-10-23

Anthropic이 23일 발표한 새로운 AI 모델 Claude 3.5 시리즈가 주목을 받고 있다. 특히 이번 발표에서 가장 눈에 띄는 점은 AI가 사람처럼 컴퓨터를 직접 사용할 수 있게 되었다는 것이다.

새롭게 업그레이드된 Claude 3.5 Sonnet과 새로운 모델인 Claude 3.5 Haiku는 기존 모델들보다 전반적인 성능이 크게 향상되었다. 특히 Claude 3.5 Sonnet은 소프트웨어 엔지니어링과 코딩 분야에서 눈에 띄는 발전을 보였으며, 공개 베타 형태로 출시된 '컴퓨터 사용' 기능은 AI 기술의 새로운 지평을 열었다는 평가를 받고 있다.


■ 사람처럼 컴퓨터 사용하는 AI 

Claude 3.5 Sonnet의 가장 혁신적인 기능은 실제 사람처럼 컴퓨터를 사용할 수 있다는 점이다. 이 모델은 화면을 보고, 커서를 움직이며, 버튼을 클릭하고, 가상 키보드로 텍스트를 입력하는 등 일반적인 컴퓨터 조작이 가능하다. 이는 기존 AI가 특별히 설계된 도구를 통해서만 작업을 수행할 수 있었던 것과는 완전히 다른 접근 방식이다.

Anthropic의 연구진은 이 기능을 개발하기 위해 Claude에게 화면의 픽셀을 정확하게 계산하는 방법을 훈련시켰다. 간단한 계산기와 텍스트 에디터로 시작한 훈련은 놀라운 속도로 발전했으며, Claude는 복잡한 작업도 수행할 수 있게 되었다. 현재 컴퓨터 사용 능력을 평가하는 OSWorld 테스트에서 Claude 3.5 Sonnet은 14.9%의 성능을 보여, 다음으로 높은 AI 시스템(7.8%)을 크게 앞섰다.


■ 성능 향상된 새로운 모델들 

업그레이드된 Claude 3.5 Sonnet은 코딩 분야에서 특히 두각을 나타냈다. SWE-bench Verified에서 49.0%의 성능을 기록하며, OpenAI의 최신 모델을 포함한 모든 공개 모델들을 앞섰다. 에이전트 도구 사용을 평가하는 TAU-bench에서도 소매 분야 69.2%, 항공사 분야 46.0%를 기록하며 큰 발전을 보였다.


새롭게 선보인 Claude 3.5 Haiku는 이전 세대의 최대 모델인 Claude 3 Opus의 성능과 대등한 수준을 보이면서도, 더 빠른 속도와 경제적인 가격을 제공한다. 특히 코딩 작업에서 40.6%의 높은 성능을 보여, 원래의 Claude 3.5 Sonnet과 GPT-4를 능가했다.


■ 안전성에 대한 고려 

Anthropic은 새로운 기능의 출시와 함께 안전성 확보에도 많은 노력을 기울였다. 특히 컴퓨터 사용 기능과 관련해 프롬프트 인젝션과 같은 사이버 공격 위험에 대비한 안전장치를 마련했다. 또한 다가오는 미국 선거를 고려해, 선거 과정에 대한 공공의 신뢰를 훼손할 수 있는 오용을 방지하기 위한 모니터링 시스템도 구축했다.

연구진은 컴퓨터 사용 기능이 AI 시스템의 기존 인지 기술을 적용하는 장벽을 낮추는 것이지, 근본적으로 새로운 위험을 초래하지는 않는다고 판단했다. 따라서 현재의 안전 레벨 2 기준이 충분하다고 보고 있다.


■ 앞으로의 과제 

현재 Claude의 컴퓨터 사용 능력은 아직 초기 단계로, 여러 한계점이 존재한다. 드래그, 확대/축소와 같은 일상적인 컴퓨터 조작이 아직 어려우며, 스크린샷을 기반으로 화면을 인식하는 방식 때문에 빠른 동작이나 알림을 놓치는 경우도 있다.

실제로 데모 녹화 중에도 실수로 녹화를 중지하거나, 갑자기 다른 작업을 시작하는 등의 오류가 발생했다. 하지만 Anthropic은 이러한 한계점들이 시간이 지남에 따라 빠르게 개선될 것으로 전망하고 있다.


■ 산업계의 반응 

새로운 모델들은 이미 여러 기업들로부터 긍정적인 평가를 받고 있다. GitLab은 DevSecOps 작업에서 최대 10%의 성능 향상을 확인했으며, Cognition은 코딩, 계획, 문제 해결 능력의 큰 발전을 경험했다고 밝혔다.

Asana, Canva, DoorDash, Replit 등은 이미 Claude의 컴퓨터 사용 기능을 활용한 다양한 실험을 진행 중이다. 특히 Replit는 이 기능을 활용해 Replit Agent 제품을 위한 앱 평가 기능을 개발하고 있다.


■ 미래 전망 

Anthropic은 이번 발표가 AI 발전의 새로운 장을 여는 계기가 될 것으로 기대하고 있다. 특히 컴퓨터 사용 기능은 AI가 기존의 소프트웨어를 직접 활용할 수 있게 함으로써, 완전히 새로운 형태의 AI 응용이 가능해질 것으로 전망된다.

현재는 베타 단계에 있는 만큼 여러 한계점이 존재하지만, Anthropic은 개발자들의 피드백을 바탕으로 지속적인 개선을 진행할 계획이다. 이 과정에서 기능의 발전과 함께 적절한 안전 조치도 함께 마련될 예정이다.


궁극적으로 이번 발전은 AI가 더욱 자연스럽게 인간의 업무 환경에 통합되는 계기가 될 것으로 보인다. 다만 이러한 발전이 안전하고 책임감 있게 이루어질 수 있도록 지속적인 모니터링과 개선이 필요할 것으로 전망된다.



(광고) 미국 현지의 넷플릭스 방송을 보고 싶다면? NordVPN를 사용하세요!