이미지 한 장으로 게임을 바로 만든다, 구글 딥마인드 'Genie'

Google DeepMind의 Genie 란?

기존의 text-to-speech, text-to-video, text-to-action과 달리

Google DeepMind의 Genie 는 text-to-interaction을 제안하고 있어요.

Google DeepMind의 Genie 소개 페이지

https://sites.google.com/view/genie-2024

Genie는 이미지를 어떻게 상호작용 가능하게 만들까?

최근 발표된 Genie는 상대적으로 다른 AI 모델들에 비해 작은 Genie에게 이미지를 전달하면,

어떤 이미지든 게임과 같은 상호작용 가능하게 만들어줍니다.
Genie는 PlayStation 및 Xbox 컨트롤러를 넘겨받은 것처럼,

이미지의 주인공을 점프시키거나 왼쪽이나 오른쪽으로 이동시키며 씬이 변화합니다.
이렇게 하면 이미지를 게임 가능한 이미지로 만든 것이며, 상상 속의 세계를 상호작용할 수 있게 합니다.

Genie는 어떻게 데이터를 학습했을까?

매개변수 110억 개를 가진 지니는 인터넷 동영상의 비지도 학습을 통해 훈련되었어요.
지니 아키텍처의 결과는 추가적인 컴퓨팅 자원과 함께 부드럽게 확장될 수 있다고 해요.
하지만 아직은 인터랙티브한 고해상도 환경은 미래의 일이며,

실시간 고정밀 생성은 아직 멀고먼 미래라고 해요.
그럼에도 불구하고, 올해 안에는 낮은 해상도 게임과 시간 제한적인 인터랙티브 생성은 가능할 것으로 예상돼요.

Google AI 모델의 적용 범위는?

올해말까지, Gemini 2 또는 GPT 5 내에서 가능할 수 있다고 예측되고 있어요.
아래 예시로, 귀여운 로봇 캐릭터를 주인공으로 한 복잡한 짧은 이야기를 모델이 만든다고 상상해봐요.
각 장면마다 실시간 비디오가 생성되어 놀아볼 수 있어요.
이를 통해 AI 이미지의 가공성을 이미 확인했지만,

인간의 디자인 스케치와 실생활 이미지에도 적용할 수 있어요.
Google이 이 110억 파라미터 모델을 만들 때 얼마나 기능이 잘 되었는지에 대해 언급하기 전에,

논문에서 언급된 Parallax를 통해 배경을 비교적 고정시키고

캐릭터와 전경이 움직이는 영상을 생성할 수 있다고 설명해요.

인공지능 발전으로 야기되는 산업 및 취업시장의 변화

더 큰 사이즈와 계산 성능을 가진 Gemini 1.5 Ultra와 Gemini 2같은 모델이 출시될 예정이에요.
또한 Genie 2를 더 큰 비율의 인터넷 동영상으로 훈련하여

실제와 상상 속 환경을 시뮬레이션할 수 있게 될 것 같아요.
게임 도중의 플레이 영상을 Genie 2 또는 오픈소스 등에 피드하면

게임 모델에 기반해 확장 팩이 생성될 것이에요.
인공지능이 코딩 작업, 그래픽 디자인, 회계 업무 등을 자동화하면서

산업에서의 역할과 우리 일상에도 영향을 미칠 것이며,

이는 취업시장의 불확실성을 증가시킬 수 있다는 분석도 있어요.

Google Deep Mind CEO와의 인터뷰 및 혜택 내용은 무엇인가?

Patreon 가입시 Discord에 대한 접근권뿐만 아니라

팟캐스트, 인터뷰, AI '설명' 스타일 영상 등을 제공해요.
CEO 인터뷰 예정: Perplexity CEO와의 인터뷰가 내일 있을 예정이에요.
AI '설명' 스타일 독점 영상: 4일 전에 공개된 여러 논문을 기반으로 한 영상입니다.
구글 딥마인드 CEO에 대한 Demis Hassabis의 발언: 7조 달러를 모으려는 조금 비웃음을 섞은 발언입니다.
Wired에서 Samman의 AI 칩 확장을 위한 모금 이야기에 댄 응답입니다.
마지막으로, Deep Mind의 연구원은 2024년에 로봇과 AI 분야에서

3~4개의 대규모 뉴스 이벤트가 발생할 예정이라고 밝혔어요.

Google의 Gemini를 활용한 embodied model 출시 예정?

'2022년 Chinchilla 논문'에서는 주어진 컴퓨팅 예산에 대해,

텍스트를 훈련하기 위한 토큰 수는 매개변수 수의 대략 20배인 것이 최적임을 발견했어요.
하지만 Google의 Gemini(6~8억 파라미터)은 1조(10^12)개의 토큰을 훈련하여,

각 파라미터마다 1천개 이상의 토큰을 사용했어요.
즉, Google은 최적의 컴퓨팅 전략을 따를 필요 없이 Gemini와 같은 컴퓨터를 보유하고 있기 때문에

적은 토큰 수에서도 강력한 결과를 얻을 수 있어요.
이와 관련해 Google에서는 RT2와 유사한 것을 출시할 가능성이 높으며,

이번에는 Gemini가 사용될 것으로 추측돼요.
그러나 이 추측은 내부 정보에 기반한 것이 아니에요.
RT2는 로봇 공학 데이터와 텍스트 및 웹 데이터 전이 학습을 결합하는 모델이에요.

인공지능 로봇 시대의 시작은 언제인가?

RT2와 같은 대형 AI 언어모델의 등장으로 모바일과 모바일 앱 부문에서

빅테크 기업들이 지배하던 것 처럼, 로봇 부문에서도 대규모 자사 제작 모델들의 출현이 예상돼요.
RT3이 등장할 경우, 혹 수십조 파라미터를 보유한 Gemini 등의 AI 생성 모델로

구동이 가능해질 것으로 예상돼요.
Jensen Huang CEO는 2024년을 로봇/게임 AI 시대의 시작이 될 것으로 예상하며,

인공지능 로봇이 인간을 대신해 지낼 수 있는 정도의 혁신적 성능을 보일 것으로 예상돼요.
이에 따라, 현재는 Tesla 등 대형업체들이 인공지능 기술을 활용한 로봇 제작에 주력하고 있으며,

GPT-3과 같은 언어 모델과 유사한 사이즈를 가진 언어나

모션을 인식하는 인공지능 로봇이 등장 할 것으로 기대돼요.

구글 최근 논란과 모델 테스트에 대한 AI Explained의 생각은?

구글이 OpenAI, Microsoft, Perplexity와 같은 기업들에 대해 겁을 먹은 모습이 보입니다.
최근 구글이 직면한 여러 논란에 대해 언급하고 싶어요.
그래서 모델 테스트에 있어서 많은 모면을 하는 것 같아요.
결국 OpenAI와의 견주기 6개월을 달리기 위해, 모델에 대한 인간의 피드백을 생략하는 행위로 이어질 수 있어요.
저는 이런 일이 일어나지 않았으면 좋겠어요.
여러분의 생각은 어떠신가요? 새로운 행동과 상호작용의 시대에 접어들고 있는 건 아닐까요?

※ 본 포스트는 AI Explained 의 Genie 모델 출시에 대한 영상의 요약 포스트 입니다.

원문 URL : https://www.youtube.com/watch?v=gGKsfXkSXv8

저작자표시 (새창열림)

'AI' 카테고리의 다른 글

첨단 반도체 전쟁, 반도체 전(前) 공정의 핵심은? (0)	2024.03.04
AI시대 첨단 반도체 전쟁, 대한민국의 전략은? (0)	2024.03.04
2024.2월 AI 뉴스 - Sora, Gemini, 젠슨 황, 21세기 러다이트 운동 등 (0)	2024.02.26
엔비디아(NVIDIA) 젠슨 황과의 대담: AI의 미래는 누가 만들 것인가? (인터뷰 전문) (0)	2024.02.15
GPT-4를 능가할 GPT-5의 출시 예정? (1)	2024.02.14

이미지 한 장으로 게임을 바로 만든다, 구글 딥마인드 'Genie'

'AI' 카테고리의 다른 글

전체 카테고리

티스토리툴바

'AI' 카테고리의 다른 글

최근 글

최근댓글

전체 카테고리

티스토리툴바