
'Sora AI 모델'이란 무엇인가?
Sora AI 가 공개되어 텍스트로부터 현실적이거나 상상만 할 수 있었던 그런 장면을 만들어 낼 수 있는 AI가 나왔어요.
과거에는 굉장히 짧았던 영상들도, 1분짜리 영상이 만들어지면서 자연스럽게 이어지는 영상을 생성할 수 있게 되었어요.
현재는 전문가들에게만 공개되어 함부로 사용할 수 없지만,
(2024년 말에서 2025년 초 출시 예정이라고 해요)
AI의 발전 가능성이 엄청나다는 것을 보여준답니다.

AI 모델 'DALL-E'의 창작 과정은?
영상과 오픈 AI의 공식 발표를 통해 'DALL-E'가 전혀 조작 없이 만들어졌다는 사실을 알 수 있어요.
이전 디퓨전 모델과 다른 방식으로 학습시키기 위해 비디오를 '패치'로 변환하고,
이 패치들을 모아 이미지를 생성하고 또 그 이미지들을 합쳐 비디오를 만들었어요.
놀랍게도 DALL-E는 스케일이 커질수록 성능이 좋아지고,
컴퓨팅 파워가 엄청나게 클수록 더욱 놀라운 결과를 보여주고 있어요.
이러한 성능 향상으로 인해 DALL-E는 기존에는 불가능했던
큰 사이즈, 해상도, 종류의 비디오를 생성할 수 있게 되었고,
현재는 미국 정부 승인을 위해 노력하고 있다고 해요.

샘플링을 통해 어떤 장면을 구성할 수 있나요?
샘플링으로 여러 가지 사이즈 비율로 자연스러운 영상을 생성할 수 있어요.
이미지를 비디오로 변환하거나, 애니메이션과 만화 이미지도 변환 가능하죠.
비디오를 조합하여 고정된 결과물로 동일한 장면을 구성할 수 있어요.

무한루프영상과 비디오 편집 기술은 어떻게 사용할 수 있나요?
무한루프 영상을 만들어 다양한 변형이 가능해요.
영상을 편집하면 정글에서 바다로,
물속으로 비디오의 배경을 자연스럽게 변경할 수 있어요.
두 개의 영상을 융합하여 자연스러운 연결, 요소 변경도 가능합니다.
더 나아가, 비디오 편집을 통해 자연스럽고 완벽한 영상 융합이 가능합니다.

데이터로 물리 세계를 시뮬레이션하는 이미지 생성 기술의 발전은 어떤 형태인가요?
고화질 이미지 생성과 물리적 세계 시뮬레이션을 데이터로 가능해요.
데이터를 이해하여 일관성 있는 결과물을 만들어내는 과정에서
규모와 일관성을 유지하면서 영상을 생성하죠.
이 이미지 생성 기술은 게임 장면을 완벽하게 시뮬레이션할 수 있을 정도로 발전했어요.
하지만 일부 불안정한 부분도 있지만, 더 많은 데이터를 활용하여 개선될 수 있을 것으로 기대돼요.

AI영화 제작의 가능성은?
이미 실제 세계 이해를 위한 과정으로서 AI영상 제작 기술이 개발 중이에요.
AI영상 제작기술에 대한 의혹도 있었지만,
요즘은 다수의 시각 예술가, 디자이너, 및 영화 제작자가 엑세스 권한을 통해
팀 브록스(Team Brookss)와 같은 AI로 만들어진 모션그래픽 영상을 만들어 가며
해당 기술에 대한 높은 평가를 받는 걸 알 수 있어요.
이미 챗봇을 통해 생성된, 소리를 직접 만드는 AI기술이 존재하며,
TTS 기술과 입 모양 움직임과 결합하여 좀 더 높은 퀄리티의 AI 영상 제작이 가능할 것으로 추측됩니다.
따라서 AI 영화 제작에서의 최종적인 목표는 '인간과 구분하기 어려운 수준의 영화 제작'이 될 거예요.
이로 인해 AI 영화 제작이 가능해진다면,
영화의 장르와 상관없이 작품 수와 창작의 다양성을 높이고,
대중이 손쉽게 접할 수 있는 새로운 영화 환경을 만들 수 있을 것입니다.

3년 전과 비교해서, 현재 인공지능으로 가능한 일은?
3년 전에는 텍스트 비디오를 상상도 할 수 없었는데,
이제는 인공지능 기술이 크게 발전하여 AI 영상 제작 기술이 마치 당연하듯 사용되고 있죠.
기술의 발전으로 세상이 달라지는 것처럼,
이제는 일반인도 자신이 상상하는 것들이 현실이 될지도 모른다는 것을 생각할 수 있게 되었어요.
그간 많은 인력들의 노고 덕분에 우리는 많은 AI 영상을 볼 수 있게 되었습니다.
하지만, AI 영상 제작 기술 발전 전에는 AI가 원활하게 작동하지 않아 나쁜 일이 발생하곤 했답니다.

AI 기술 발전으로 어떤 변화가 있었나요?
미래 예측의 정확성을 높이기 위해 생각 방식을 변경하고,
AI 기술 발전에 따라 전문가 피드백을 경청해요.
또한, 영상을 3D 모델로 변환해주는 폴리캠과
개인 비서 기능을 제공하는 메모리 제어 기술 등도 소개되었어요.
이러한 기술은 게임 개발에도 적용되어 맵 제작 등에 활용될 수 있답니다.
또한, 대화 내용을 저장하고 추천하는 개인 비서 및 사용자의 어조와
글 쓰기 스타일을 추적하여 편리한 기능을 제공해요.
오픈 AI는 자사의 라즈 랭귀지 모델을 오픈 소스화하는 추진을 하고 있으며,
이러한 발전으로 미래에는 더 많은 발전이 예상되요.

오픈 AI와 관련된 최근 소식은?
위스퍼 라이트와 라지 랭귀지를 통해 파생 상품들이 탄생했고, 오픈 AI가 구글에 도전하여 AI를 활용한 웹 검색 서비스 개발 중입니다.
핵심 개발자 안드레 카파씨는 테슬라에서 자율 주행을 개발한 뒤 오픈 AI로 돌아와 교육 자료 작성으로 유명하며, 한국을 좋아합니다.
구글은 제미나이 1.5를 발표했습니다.

새로운 갤럭시 폴드 모델의 이름과 출시 사실은?
갤럭시 폴드 1.5 프로 모델이 출시된다는 소식이 있어요.
갤럭시 폴드 시리즈 내에서는 1.0 중에서 울트라, 프로, 중간 모델, 나노 모델로 나눠지는데,
이번에 출시된 모델은 프로 버전이에요.
과거에 출시된 1.0 모델 대비 놀라운 성능을 가지면서 매우 인기 있는 제품으로 자리매김하고 있답니다.

구글 제미나이의 주요 기능은?
구글 제미나이는 100만 토큰까지 처리 가능해요.
이를 활용하여 방대한 양의 데이터에서 질문에 대한 대사, 그림, 무성 영화 등을 추출할 수 있어요.
69만 토큰까지 이해하고, 원하는 무성 영화 장면을 정확하게 찾아낼 수 있어요.
그리고 3D 관련 코드 블록도 포함하여 질문에 대한 답변을 제공해줘요.

GPT-4의 특징은?
📚 GPT-4는 GPT-3에 비해 양리적 에러를 찾는 능력이 우수하며 컨텍스트 길이가 늘어남에도 정확도를 유지할 수 있어요.
💡 MOE 방식은 GPT-3와 달리 여러 명의 전문가가 상호작용하며 답변을 생성하는 구조를 가지고 있답니다.
🌟 GPT-4는 일부 사용자에게만 공개되어 있어요.
랭 체인 도큐먼트 테스트를 통해 지식을 바탕으로 답변을 제공합니다.
📺 앤드루 교수님의 딥러닝 강의를 통해 영상으로 배우고 코드 작성도 가능한 기능이 추가됐네요.

구글의 AI 기술 발전과 출시 소식은?
구글 원 가입자가 1억 명을 돌파하여 효과를 본 것 같아요.
구글이 AI 코딩 도구 '구스라'를 내부 적용하여 개발자들의 생산성 향상을 기대하고 있어요.
스테빌리티 AI는 효율 및 품질을 향상한 이미지 생성 AI '스테이블 캐스트 케이드'를 출시했어요.
이미지 퀄리티와 텍스트 생성 정확도가 높아지고, 생성 과정이 빠르고 퀄리티가 좋아진 것 같아요.
또한 구글은 메타에서 'V제파'를 출시하여 비디오 영역을 채울 수 있는 모델을 제공하고 있어요.

NVIDIA와 애플이 발표한 AI 관련 기술은?
NVIDIA에서는 인터넷 없이도 PC에서 챗봇을 이용가능한 프로그램 '챗 위드 RTX'를 출시했어요.
애플은 SVG 파일을 CSS, 자바스크립트를 이용해 영상으로 만들어주는 기술 '키 프레이머'를 공개했고,
AI 코딩 도구를 만들어 AI 코드를 생성할 수 있다는데,
이를 이용하면 제품을 개발하기가 편리해져요.
구글과 NVIDIA와 함께 AI 기술 개발에서 경쟁적 환경이 만들어진 것으로 알려졌어요.

스탠포드 대학교에서 개발한 인터페이스는 어떤 것인가?
스탠포드 대학교에서 개발한 유니버셜 매니플레이션 인터페이스는
로봇 조작을 간편하게 해주는 휴대용 디바이스로 동영상에서 소개되었어요.
로봇에 고프로를 장착하여 일상적인 작업이나 학습을 편리하게 할 수 있다고 설명했어요.
또한, 베토벤의 음악을 텍스트로 수정하여 다른 장르의 음악으로 바꿀 수 있는
텍스트 베이스드 오디오 에디팅 기술도 소개되었어요.

미국에서 AI 적용된 이미지와 목소리 기술 분야의 혁신 소개
구글에서 제공하는 이미지 인식 모델 'YOLO'가
더욱 정확하게 물체를 탐지할 수 있는 'YOLO 월드'가 출시되어 놀랍죠.
'세그먼트 애니메이션과 아고 샘' 기술을 결합해서,
SAM과 결합된 레이더 기술로 더욱 완성도 높은 물체 탐지기술을 구현했어요.
한편 AI 기술이 원활하게 발전함에 따라 목소리 학습을 통해 수익을 창출하는 것이 가능한
'레벤 랩스'라는 앱이 출시되었고,
'프로그래머가 될 필요없다'는 발언으로 충격을 준 엔비디아 CEO 발언도 세상을 반가롭게 하고 있어요.

왜 모두가 코딩을 배울 필요는 없는 걸까요?
컴퓨터 공학과 프로그래밍을 배워야 한다는 주장과 달리,
인공지능을 통해 기술 변화에 의해 코딩이 쉬워져서 모두가 배울 필요 없다는 의견을 제시했어요.
이에 따라 대학에서 생물학을 공부하기로 결정하였으며,
코딩의 중요성은 결과물을 만드는 데 있다고 강조하였어요.
그렇기 때문에, 너무 쉬워진 코딩 시대에서는
빠르게 배우고 의미 있는 결과물을 창출하는 것이 핵심이라는 입장과 일치한다고 해요.
※ 본 포스트는 유튜브 조코딩의 2월 AI뉴스 영상을 요약한 포스트 입니다.
'AI' 카테고리의 다른 글
AI시대 첨단 반도체 전쟁, 대한민국의 전략은? (0) | 2024.03.04 |
---|---|
이미지 한 장으로 게임을 바로 만든다, 구글 딥마인드 'Genie' (1) | 2024.02.27 |
엔비디아(NVIDIA) 젠슨 황과의 대담: AI의 미래는 누가 만들 것인가? (인터뷰 전문) (0) | 2024.02.15 |
GPT-4를 능가할 GPT-5의 출시 예정? (1) | 2024.02.14 |
구글의 제미나이 울트라(Gemini Ultra) 리뷰 요약 (0) | 2024.02.14 |
최근댓글