Декілька тижнів тому стало відомо, що Google внесла певні корективи під час презентації своєї нової моделі штучного інтелекту під назвою Gemini, конкурента відомого ChatGPT. Виявилося, що деякі моменти у демонстраційних відео були опрацьовані командою Google для кращого візуального враження.
Нещодавно опубліковані ролики генератора штучного інтелекту Lumiere, представленого Google наприкінці січня, варто розглядати з певним ступенем скепсису через попередній досвід з Gemini.
Lumiere пропонує не лише створення естетично довершених та реалістичних відеофрагментів на основі текстових інструкцій, але й дозволяє анімувати статичні зображення та редагувати існуючі відеофайли. Ця функціональність включає можливість модифікації одягу персонажів у відео за допомогою відповідних інструкцій, а також зміну стилістики відео, перетворюючи його, наприклад, на комікс чи лего-анімацію. Можливо також адаптувати анімацію під стиль заданого зображення, навіть якщо це дитячий малюнок.
За інформацією від Google, технологія, яка лежить в основі Lumiere, була розроблена спеціально для цієї моделі та відрізняється від існуючих генераторів перетворення тексту в відео. Вона не базується на створенні послідовності ключових кадрів, які в подальшому перетворюються на відео вищої роздільної здатності.
За словами Google, процес створення відео в Lumiere відбувається за один крок завдяки новаторській "просторово-часовій архітектурі", що дозволяє уникнути ривків та неестетичних елементів у фінальному продукті.
Штучний інтелект Lumiere був навчений на базі 30 мільйонів відеороликів тривалістю 80 кадрів кожен. При швидкості відтворення 16 кадрів на секунду, кожне відео триває приблизно п’ять секунд.
Водночас, Lumiere має свої обмеження: нині можливо створювати лише п’ятисекундні відеофрагменти з максимальною роздільною здатністю 1024 на 1024 пікселі, що дослідники Google називають “низькою роздільною здатністю”.