
Китайские технологические компании активно наращивают разработку мультимодальных языковых моделей на основе искусственного интеллекта (LLM), что является частью масштабной стратегии по внедрению передовых технологий в различные сферы экономики.
Мультимодальные LLM способны анализировать и создавать контент в разных форматах, включая текст, изображения, аудио и видео.
Эксперты уверены, что такие модели станут ключевым драйвером развития генеративного ИИ, открывая новые возможности для финансового сектора, ритейла, медицины и умного производства.
Китайская интернет-компания ByteDance представила обновленную ИИ-модель Doubao 1.5, обладающую расширенными возможностями визуального восприятия и глубокого анализа. Также была улучшена функция преобразования текста в изображение, что позволяет генерировать более качественный визуальный контент.
По заявлению разработчиков, новая версия демонстрирует значительный прогресс в математике, программировании, научных расчетах и креативном письме, а также снижает затраты на обучение и обработку данных.
Благодаря функции визуального анализа модель может интерпретировать изображения. Например, она способна оценивать ландшафт по загруженным фотографиям, помогать туристам подбирать рестораны в путешествиях или ассистировать компаниям в управлении проектами, создавая блок-схемы для оптимизации рабочих процессов.
Лу Янься (Lu Yanxia), директор по исследованиям International Data Corp China, считает, что успехи китайских компаний в области мультимодальных LLM ускорят внедрение ИИ-решений и создадут новые перспективы для местных производителей серверов, облачных платформ и чипов.
Она отметила, что такие модели требуют больших объемов данных, экспертных знаний и специалистов, способных адаптировать ИИ под конкретные отраслевые задачи.
Kuaishou Technology представила новую версию генератора видео Kling AI 2.0
Китайская видеоплатформа Kuaishou Technology запустила обновленную модель генерации видео Kling AI 2.0. С момента релиза в июне прошлого года система прошла более 20 доработок, а ее аудитория превысила 22 млн пользователей по всему миру.
Разработчики заявляют, что их ИИ превзошел конкурентов, включая Sora от OpenAI, по таким параметрам, как семантическая точность, качество изображения и плавность анимации.
Гай Кун (Gai Kun), старший вице-президент Kuaishou, подчеркнул, что ИИ открывает огромные возможности для творчества, но сохраняются проблемы с устойчивостью контента (AIGC) и точной передачей сложных идей пользователей.
Он добавил, что необходимо расширять функционал ИИ-моделей и улучшать взаимодействие человека с машиной, чтобы «рассказывать качественные истории с помощью искусственного интеллекта». По его словам, стремительное развитие AIGC трансформирует рекламу, кино, телевидение и другие креативные индустрии.
Платформа Kling AI также предлагает мультимодальное редактирование: пользователи могут загружать изображения и другие форматы, чтобы создавать уникальные видеоролики.
Более 15 тыс. разработчиков уже используют Kling API в различных сферах, создав около 12 млн изображений и свыше 40 млн видео. При этом 85% роликов сгенерированы на основе загруженных изображений.
Китайские технологические компании: перспективы и вызовы мультимодального ИИ
Ван Пэн (Wang Peng), исследователь Пекинской академии общественных наук, отметил, что мультимодальные ИИ-модели позволяют точнее обрабатывать сложные данные, что особенно востребовано в финансах, клиентском сервисе и здравоохранении.
Пан Хелин (Pan Helin), член экспертного совета Министерства промышленности и информационных технологий, заявил: «Создание мультимодальных ИИ требует мощных вычислительных ресурсов, продвинутых алгоритмов и качественных данных. Необходимо оптимизировать обмен данными и расширять сферы применения».
Он призвал китайские компании активнее инвестировать в разработку собственных чипов и ПО, а также в фундаментальные науки — математику, статистику и компьютерные технологии, чтобы укрепить позиции на фоне глобальной конкуренции.
Китай продолжает демонстрировать впечатляющие успехи в области ИИ, и мультимодальные модели — очередной шаг к технологическому лидерству. Однако конкуренция с OpenAI и другими западными гигантами потребует не только инвестиций, но и прорывных инноваций. Сможет ли Китай сохранить темп? Как вы думаете, какие отрасли больше всего выиграют от мультимодального ИИ? Делитесь мнением в комментариях!
Новость Китая “Китайские технологические компании усиливают инвестиции в мультимодальные ИИ-модели” подготовлена Порталом PRC.TODAY.
Если вам понравилась новость или появились вопросы, оставьте ваш комментарий или обсудите эту новость в нашем Telegram-канале


Мультимодальные LLM: новые горизонты искусственного интеллекта