ИИ в Китае. Конкуренция в Китае в области моделей искусственного интеллекта, работающих по принципу «текст-видео», обостряется, поскольку отечественные технологические компании спешат выпустить свои собственные модели генерации видео после того, как американская исследовательская компания OpenAI, занимающаяся вопросами искусственного интеллекта, выпустила модель Sora, которая покорила весь мир.
Китайская платформа видеохостинга Kuaishou Technology недавно обновила свою модель ИИ Kling, которая оснащена новыми функциями, включая преобразование изображений в видео и расширение видео, что позволяет создавать видео длиной до трех минут.
Предыдущая версия может преобразовывать текст в видеоклипы длиной до двух минут с разрешением 1080p, поддерживая при этом различные соотношения сторон. По словам представителей Kuaishou, модель может интерпретировать подсказки и генерировать высококачественные видеоролики, имитирующие физический мир, а также создавать воображаемые сцены на основе текстовых инструкций.
Чжан Ди (Zhang Di), вице-президент Kuaishou и глава команды ИИ-моделей компании, заявил, что они намерены инвестировать в технологию больших языковых моделей и разрабатывать инструменты для создания контента, генерируемого ИИ (AIGC). LLM – это модели искусственного интеллекта, на которые подаются огромные объемы текстовых данных для использования в различных задачах, начиная от обработки естественного языка и заканчивая машинным переводом.
ИИ в Китае: технологические компании инвестируют в фундаментальные научные исследования
На сегодняшний день более 500 000 пользователей подали заявки на участие в бета-тестировании Kling, а количество созданных видеороликов достигло 7 миллионов. Компания Kuaishou заявила, что будет продолжать уделять внимание повышению четкости видео и внедрению инновационных функций для удовлетворения различных потребностей пользователей.
Kuaishou – одна из целого ряда китайских технологических компаний, стремящихся бросить вызов Sora путем усовершенствования моделей ИИ для создания изображений и видео на основе текстовых подсказок.
В апреле китайская компания Shengshu Technology и Университет Цинхуа выпустили, как они выразились, первую большую модель Vidu для преобразования текста в видео на уровне Sora, которая может создать 16-секундное видео высокой четкости с разрешением 1080p одним нажатием кнопки. Модель способна понимать и генерировать китайский контент, такой как панды и драконы.
Кроме того, ByteDance, материнская компания китайской платформы для создания коротких видеороликов Douyin, представила MagicVideo-V2, свою ИИ-модель для создания видеороликов из текста. Она способна создавать эстетически привлекательные видео высокого разрешения с удивительной точностью и плавностью.
Ма Шикун (Ma Shicong), аналитик пекинской интернет-консалтинговой компании Analysys, отметил, что за последние несколько лет Kuaishou накопила большой опыт и технические преимущества в области ИИ, видео, живых трансляций и алгоритмов, добавив, что компания надеется найти новые источники дохода и ускорить свои усилия по монетизации, расширяя свое присутствие в быстро развивающемся сегменте AIGC.
«Талант, данные и вычислительные мощности являются ключевыми для моделей генерации текста в видео», – сказал Пан Хелин (Pan Helin), член Экспертного комитета по экономике информации и коммуникаций, который находится в ведении Министерства промышленности и информационных технологий.
По словам Пана, в процессе разработки таких моделей предъявляются повышенные требования к вычислительным мощностям, алгоритмам и высококачественным данным, и необходимо приложить дополнительные усилия для повышения эффективности циркуляции элементов данных и расширения сценариев применения моделей генерации видео в более широком диапазоне сегментов.
Китайские технологические компании должны наращивать собственные и запатентованные возможности в области базовых чипов вычислительной мощности и программного обеспечения, а также увеличивать инвестиции в фундаментальные научные исследования, чтобы догнать зарубежных коллег в гонке чатботов ИИ, добавил он.
Эксперты также отметили, что мультимодальные LLM, которые интегрируют различные типы контента, такие как текст, изображения, аудио и видео, в модели ИИ, являются ключом к развитию технологий ИИ в целом.
Чэнь Дуань (Chen Duan), директор Центра инновационного развития интеграции цифровой экономики при Центральном университете финансов и экономики, считает, что технология AIGC приведет к новой революции в области производства цифрового контента и будет способствовать инновациям в индустрии цифровой культуры.
По ее словам, китайские технологические предприятия имеют уникальные преимущества в расширении сценариев применения ИИ по сравнению с зарубежными коллегами, опираясь на огромные внутренние социальные сети Китая и самое большое в мире число активных интернет-пользователей, а генераторы текста в видео могут произвести революцию в индустрии короткого видео, рекламы и кинотрейлеров.
Новость Китая “ИИ в Китае: гонка контента, созданного искусственным интеллектом, разгорается” подготовлена Порталом PRC.TODAY по материалам сайта China Daily.
Если вам понравилась новость или появились вопросы, оставьте ваш комментарий или обсудите эту новость в нашем Telegram-канале