Вот вам актуалочка на 28 сентября 2025 года
1. Текст (абракадабра или корявый текст)
Это касается только длинных слов, кроме того ИИ может генерировать небольшие слова, но писать их без пробелов. Для этого нужен более точный контроль над задачей для ии(промптом)
2. Зубы (корявые или одна белая полоса)
Если скормить фотографию, где рот открыт, то с зубами будет все в порядке во время речи.
3. Последовательность частей. (Объекты исчезают и появляются, меняют местоположение, меняется форма размер, цвет шрифт и др.)
Последовательность решается, т.к. уже существует куча моделей "первый-последний кадр" Т.е. нужно просто задавать задание
4. Последовательность окружения (Объект каждый раз в новом месте. Нет такого , что одно и тоже окружение снято из разных точек съемки).
Тоже решается, стилезацией
5. Последовательность действий (причина/следствие несуразны: за действием, следует нелогичное продолжение)
Это все к режиссуре и к более точному описанию задачи. Т.е. это не проблема ИИ, а проблема оператора, который пишет промпт.
6. Логические проблемы в объекте или окружении.
Да
7. Обвести линии взглядом. (Прямые линии и плоскости ломаются. Углы линий и плоскостей меняются)
Очень редко
8. Годика через два распечатать этот текст. Распечатку свернуть трубочкой и засунуть в мусорное ведро.
Сейчас на RTX3090 дома бесплатно можно генерировать 10 секундный 720p видеоролики, лишенные большинства всех описанных проблем, со временем генерации примерно 7-10 минут.
Более сложная задача - генерация длинных видео, тоже решаемая. Основная проблема - это время генераций и самостоятельный отсмотр материала, чтобы делать повторные генерации. Чем длиннее финальная композиция тем больше генераций потребуется и тем больше времени потребуется на отсмотр, отбор и правку промпта для ии.