최근 텍스트를 이미지로 변환하는 인공 지능 시스템에 대해 많은 글이 작성되었습니다. 그러나 OpenAI 및 Meta AI와 같은 회사는 AI 모델을 선보이거나 공개적으로 제공하기까지 했지만 Google은 지난주까지 이러한 노력에 대해 상대적으로 조용했습니다.
지금 사용 가능…일종의
Google에 따르면 Imagen의 텍스트를 이미지로 변환하는 형식은 매우 제한적이긴 하지만 AI Test Kitchen 앱을 통해 기술에 대한 조기 피드백을 받는 방식으로 마침내 대중에게 공개될 예정입니다.
AI 테스트 키친은 사람들이 새로운 AI 기술에 대해 배우고 실험하고 피드백을 제공할 수 있는 방법으로 올해 초 Google I/O에서 소개되었습니다. 구글은 8월 마침내 발표하다 대중이 “미국 사용자의 소규모 그룹”에 배포할 때 자신의 관심사를 등록할 수 있습니다.
그러나 Imagen을 사용하는 이유는 무엇입니까? 우선 올해 5월에 발표된 연구논문에서는 달-이 2 그리고 안정적인 확산. 그러나 Google은 Imagen의 언어 모델 크기를 늘려 이미지 정확도와 텍스트 입력과의 정렬을 향상시키는 데 각별한 주의를 기울인 것으로 보입니다.
실제로 Google은 인간 평가자가 샘플 품질과 이미지 텍스트 정렬 측면에서 나란히 비교할 때 다른 모델보다 Imagen을 선호한다고 말합니다. 그리고 그의 백서에 표시된 샘플이 그것을 증명하는 것 같습니다. 비록 구글이 최고의 이미지만을 보여주기는 하지만 말입니다.
Imagen 제공
그대로 말하는 나에게 모서리, 선택된 사용자는 AI 테스트 키친의 두 가지 인터페이스인 “City Dreamer”와 “Wobble”을 통해 Imagen과 상호 작용할 수 있습니다.
첫 번째는 사용자가 선택한 테마를 중심으로 설계된 도시에서 항목을 만들도록 양식에 요청할 수 있도록 합니다. 그러면 디자인이 SimCity 스타일 등각 투영 모델로 나타납니다. Wobble에서 사용자는 자신이 만든 재료를 선택하고 원하는 옷을 입고 괴물을 만들 수 있습니다.
이것은 사용자가 몇 초 만에 거의 모든 것을 만들 수 있는 DALL-E 2나 GPU 하나만 있는 컴퓨터에서 로컬로 다운로드하고 재생할 수 있는 Stable Diffusion보다 훨씬 더 제한적입니다.
왜 제한합니까? 오픈 소스 코드와 데모의 부족에 대한 Google의 설명은 힌트를 제공합니다. 잠재적인 남용에 대한 우려입니다. 그러나 그녀는 “외부 감사의 가치와 자유로운 오픈 액세스의 위험 사이의 균형을 유지하는 책임감 있는 외부인”을 위한 프레임워크를 모색하겠다고 약속했습니다.
현재 구글의 텍스트-이미지 서비스 제공에 관심이 있는 사람들은 구글 플레이와 iOS 앱 스토어에서 다운로드 가능한 AI 테스트 키친 앱을 통해 신청할 수 있다.
Imagen on Google Research에 대해 자세히 알아볼 수도 있습니다. 여기 또는 백서에 액세스 여기.
이미지 크레디트: Google Imagen
“트위터를 통해 다양한 주제에 대한 생각을 나누는 아 동율은 정신적으로 깊이 있습니다. 그는 맥주를 사랑하지만, 때로는 그의 무관심함이 돋보입니다. 그러나 그의 음악에 대한 열정은 누구보다도 진실합니다.”