[Insight] Claude 3.5 Sonnet 발표. OpenAI를 압도하는 Antropic

반응형

Antropic ?! 

엄청난 LLM product가 또 출시되었습니다.
매주마다 LLM 관련 다양한 논문들이 나오고 있는데요, 저번주에는 정말 엄청난 프로덕트가 출시되었네요. 

Antropic의 Claude 3.5 Sonnet 출시 소식입니다.
올해 3월 Antropic은 Claude 3.0 모델을 출시하면서 ChatGPT-4 보다 더 성능이 좋은 모델을 공개했습니다. Claude3.0은 Opus, Sonnet, Haiku라는 3가지 모델로 이루어져 있는데요, 각 모델은 성능뿐만 아니라 윤리성 검증까지 마친 상태라고 했죠.

 

 

엔트로픽은 OpenAI의 엔지니어들이 샘 알트만의 행보에 반대하여 퇴사 후 설립한 회사입니다. ( 샘 알트만의 영리화 정책 )
Antropic은 OpenAI와 차별성을 두기 위해 공익회사임을 밝히고 회사의 미션을 '인류에게 도움이 되는 대규모 AI 시스템을 구축한다!'입니다. 

이런 AI 시스템은 안정성, 투명성, 윤리성에 가치를 두고 있어야 한다고 주장합니다. 처음에 이런 방식을 보고 정말 놀랐는데요, 자사만의 특별한 AI 학습 방식인 '헌신적 구성-Constitutional AI'을 개발했습니다. 이는 인공지능 모델이 스스로 윤리 원칙을 학습하도록 합니다. 기존의 단순한 방식과는 차별화된 학습 방식이죠.

Antropic이 발표한 Claude는 2023년에 발표한 Cluade3을 기반으로 빠르게 버전업을 진행하고 있는 상태입니다. 그 중에서도 저번주에 발표한 Cluade 3.5 Sonnet은 정말 너무 놀라운 성능입니다. 

 

사실 처음 Claude와 ChatGPT를 사용해보면 Claude가 더 사용자 친화적인 인터페이스를 가지고 있고, 퍼포먼스나 개발자 친화적인 디테일 부분에서 Claude가 조금 더 우위에 있다고 생각합니다. 개발자 커뮤니티에서도 최근 'GPT4 다운그레이드' 된 것이 확인되었죠. OpenAI도 갑질을 할 것 같더니 ! Claude가 나타났네요.

 

 

 

필자는 Cluade와 ChatGpt 모두 유료 결제를 통해 사용 중입니다. 
가장 최근에 발표된 ChatGpt 4.0 o 모델의 쇼케이스도 인상깊게 보고 놀랐는데요. 막상 사용해보면 성능의 증가가 크게 체감되지는 않았습니다. 

하지만 저번주에 출시한 Claude 3.5 Sonnet은 Gpt-4o 보다 훨~씬 뛰어나다는 것을 직접 사용하면서 느끼게됩니다. 사실 체감상 뿐만 아니라 아래에서 보여주는 벤치마크를 참고하더라도 압도적인 성능을 보여주죠. 

 

디테일한 포인트들을 정리해봤습니다.

- Anthropic에 따르면 여러 벤치마크에서 GPT-4o를 능가합니다.
- 새 모델은 텍스트와 이미지를 분석하고 텍스트를 생성할 수 있습니다.
- 이전 Cluade 3 Opus 모델에 비해 두 배 빠릅니다. 
- Claude 3.5 Sonnet은 200,000 토큰의 컨텍스트 창을 가지고 있습니다 (GPT-4o는 128K).
- Anthropic은 AI 생성 콘텐츠 편집을 위한 새로운 작업 공간인 Artifacts를 도입했습니다.
- 이 모델은 현재 Anthropic의 웹 클라이언트, iOS 앱, 및 API를 통해 이용할 수 있습니다.
- 더 나은 버전인 Claude 3.5 Opus는 웹 검색 기능 등과 함께 곧 출시될 예정입니다.

 

 

기능적인 부분을 살펴볼까요? Claude 3.5 Sonnet은 대학원 수준의 추론(GPQA), 학부 수준의 지식(MMLU), 및 코딩 능력(HumanEval)에서 새로운 산업 벤치마크를 설정합니다.

또한 더 친근해졌습니다 ! 미묘한 차이, 유머, 복잡한 지침을 이해하는 능력이 눈에 띄게 향상되었으며, 자연스럽고 공감할 수 있는 톤으로 고품질의 콘텐츠를 작성하는 데 뛰어납니다.

Claude 3.5 Sonnet은 Opus보다 훨씬 더 똑똑합니다. 예를 들어, 내부 에이전트 코딩 평가에서 Claude 3.5 Sonnet은 64%의 문제를 해결했으며, 이는 38%를 해결한 Claude 3 Opus를 능가하는 성과입니다.

Claude 3.5 Sonnet은 독립적으로 코드를 작성, 편집, 실행할 수 있으며, 정교한 추론 및 문제 해결 능력을 갖추고 있습니다.

 

https://www.youtube.com/watch?v=_ca2NUaJMmE

 

Toolset

1. 비정형 텍스트에서 구조화된 데이터 추출

- 목적: 수동 데이터 입력을 줄이기 위해 인보이스에서 이름, 날짜, 금액 등을 추출합니다.
- 예시 사용: 인보이스나 이메일에서 관련 정보를 추출하여 데이터 처리에 활용.

2. 자연어 요청을 구조화된 API 호출로 변환

- 목적: 팀이 간단한 명령으로 자주 사용하는 작업을 스스로 처리할 수 있게 합니다.
- 예시 사용: "구독 취소"와 같은 명령을 구독 서비스의 API 호출로 변환.

 

3. 데이터베이스 검색 또는 웹 API 사용으로 질문에 답변

- 목적: 고객 지원 챗봇에서 즉각적이고 정확한 답변을 제공합니다.
- 예시 사용: 고객 데이터베이스에서 데이터를 가져와 주문 상태에 대한 질문에 답변.

 

4. 소프트웨어 API를 통한 간단한 작업 자동화

- 목적: 데이터 입력이나 파일 관리에서 시간을 절약하고 오류를 최소화합니다.
- 예시 사용: 새로운 데이터 입력으로 스프레드시트를 자동으로 업데이트.

5. 세분화된 작업을 위한 다수의 빠른 클로드 서브에이전트 조정

- 목적: 참석자의 가용성을 기반으로 최적의 회의 시간을 자동으로 찾습니다.
- 예시 사용: 모든 참석자의 일정을 확인하여 회의를 조율.

 

Artifacts !!

https://www.youtube.com/watch?v=nIsvzIO3s8I

 

 

Anthropic은 Artifacts의 미리보기를 [http://claude.ai]에서 출시했습니다. Artifacts를 통해 사용자는 문서, 코드, Mermaid 다이어그램, 벡터 그래픽, 심지어 간단한 게임까지 생성하도록 Claude에게 요청할 수 있습니다. Artifacts는 채팅 옆에 나타나 실시간으로 생성물을 확인하고, 반복하며, 빌드할 수 있게 해줍니다.

Anthropic은 Artifacts가 Claude.ai의 더 큰 비전의 시작에 불과하다고 밝혔습니다. 이 인터페이스와 사용자 경험은 매우 만족스럽고, 곧 팀 협업을 지원하도록 확장될 예정입니다.

미래에는 팀과 전체 조직이 지식을 중앙 집중화하고, 문서 및 진행 중인 작업을 공유된 공간에 안전하게 통합할 수 있게 될 것입니다. Claude는 필요할 때마다 팀원처럼 활동하며, 이는 기업 및 업무 환경에 매우 유용할 것으로 보입니다.

 

 

반응형