Китайский стартап DeepSeek меняет правила игры в индустрии ИИ

Сообщество искусственного интеллекта (ИИ) в восторге от DeepSeek-R1, новой модели с открытым исходным кодом, разработанной китайским стартапом DeepSeek.

Выпущенная 20 января, к понедельнику она быстро взлетела на вершину чарта бесплатных приложений в магазине Apple, обогнав ChatGPT от OpenAI.

По словам представителей DeepSeek (официальный сайт DeepSeek), в таких задачах, как математика, кодирование и рассуждения на естественном языке, производительность этой модели сопоставима с ведущими моделями от таких тяжеловесов, как OpenAI, но при этом она стоит лишь малую часть денег и вычислительных мощностей своих конкурентов.

Вот что удалось сделать DeepSeek и почему она застала врасплох индустрию ИИ.

Что такое DeepSeek?

Официально известная как DeepSeek Artificial Intelligence Fundamental Technology Research Co, Ltd, компания была основана в июле 2023 года. Будучи инновационным технологическим стартапом, DeepSeek занимается разработкой передовых больших языковых моделей (LLM) и связанных с ними технологий.

С момента выпуска своей первой модели “DeepSeek LLM” в январе прошлого года компания прошла через множество раундов итераций. В декабре стартап запустил свою открытую модель LLM “V3”, которая, по сообщениям американских СМИ, обогнала все открытые модели LLM компании Meta и соперничала с закрытой моделью GPT4-o (официальный сайт chatGPT) компании OpenAI.

В только что выпущенной модели R1 был совершен важный технологический прорыв – использование чистых методов глубокого обучения позволило искусственному интеллекту спонтанно появляться с возможностью рассуждать.

В отличие от традиционных подходов, таких как Chain-of-Thought (CoT) и Supervised Fine-Tuning (SFT), DeepSeek выделилась в индустрии ИИ, приняв Reinforcement Learning (RL) в качестве основного метода обучения.

В то время как CoT и SFT опираются на пошаговые рассуждения и огромные объемы помеченных данных соответственно, RL позволяет моделям обучаться через механизмы взаимодействия и вознаграждения, что делает его более подходящим для сложных и динамичных задач.

Внедрение RL позволило DeepSeek улучшить рассуждения, адаптивность и эффективность своих моделей, что вывело ее на передовые позиции в этой области.

Читайте и другие НОВОСТИ КИТАЯ Цифровые цепочки поставок: новый план развития в Китае

На вопрос о значении слова “DeepSeek” новейший чат-бот R1 ответил: “Название отражает миссию компании по глубокому изучению и развитию основополагающих технологий ИИ, направленную на расширение границ инноваций и применения ИИ”.

Китайский стартап DeepSeek: “Больше – уже не всегда умнее”

“Согласно техническому отчету модели V3, стоимость производства DeepSeek составляет около 5,57 млн долларов, что делает его самым недорогим среди LLM.

Известный американский экономист Джеффри Сакс (Jeffrey Sachs), профессор и директор Центра устойчивого развития при Колумбийском университете, сказал, что прорыв, совершенный DeepSeek, показывает возможность создания передового ИИ при гораздо меньших затратах, чем принято считать в США.

DeepSeek-V3 позволяет “выглядеть легко сегодня с открытым весовым релизом LLM передового уровня, обученного при смешном бюджете (2 048 GPU за 2 месяца, $6M)”, – написал Андрей Карпати, один из основателей OpenAI, на сайте X.

По сравнению с другими известными моделями, китайский стартап DeepSeek добился снижения стоимости на порядок.

Стоимость «резко контрастирует с сотнями миллионов, если не миллиардами, которые американские компании обычно вкладывают в подобные технологии», – сказал Марк Андреессен (Marc Andreessen), известный технологический инвестор, назвав R1 DeepSeek «одним из самых удивительных прорывов», которые он когда-либо видел.

Развитие индустрии ИИ долгое время зависело от наращивания вычислительных мощностей. Экономичная модель DeepSeek может перевернуть представление об ИИ.

Похвалив технический отчет DeepSeek-V3 как “очень хороший и подробный”, Карпати сказал, что отчет достоин прочтения.

Американский инвестиционный банк и поставщик финансовых услуг Morgan Stanley считает, что DeepSeek демонстрирует альтернативный путь к эффективному обучению моделей по сравнению с нынешней гонкой рук среди гипермасштабируемых компаний за счет значительного повышения качества данных и улучшения архитектуры моделей.

“Больше – уже не всегда умнее”, – заявили в компании.

Модель с открытым исходным кодом

“Новая модель DeepSeek впечатляет тем, как эффективно они создали модель с открытым исходным кодом, которая выполняет вычисления в режиме вывода и является суперэффективной”, – сказал генеральный директор Microsoft Сатья Наделла (Satya Nadella).

Читайте и другие НОВОСТИ КИТАЯ Новости о цифровом юане Китая

Открытый исходный код позволяет исследователям, разработчикам и пользователям получить доступ к базовому коду модели и ее “весам” – параметрам, которые определяют, как модель обрабатывает информацию, – что позволяет им использовать, изменять или улучшать модель в соответствии со своими потребностями.

DeepSeek значительно выиграл от принципов открытого исходного кода и, в свою очередь, демонстрирует сильное стремление делиться знаниями и вносить вклад в коллективное развитие технологий.

Главный специалист по искусственному интеллекту компании Meta Янн ЛеКун (Yann LeCun) сказал: “Они выдвигали новые идеи и строили их на основе чужих наработок. Поскольку их работы опубликованы и имеют открытый исходный код, каждый может извлечь из них пользу”.

“В этом и заключается сила открытых исследований и открытого исходного кода”, – добавил ЛеКун.

Американский экономист Сакс, вторя ЛеКуну, сказал: “Модель бизнеса и развития DeepSeek – это открытый исходный код, что является убедительной и успешной моделью для науки, технологий и бизнеса”.

Если OpenAI изначально начинала как организация с открытым исходным кодом, но затем перешла на модель с закрытым исходным кодом, то DeepSeek пошла по другому пути.

Подчеркивая важность развития сотрудничества и инноваций на основе принципов открытого исходного кода, Лян Вэньфэн (Liang Wenfeng), основатель DeepSeek, сказал, что создание надежной технологической экосистемы является приоритетной задачей.

“Мы не будем выбирать закрытый исходный код“, – сказал Лян.

Новость Китая “Китайский стартап DeepSeek меняет правила игры в индустрии ИИ” подготовлена Порталом PRC.TODAY по материалам сайта China Daily.

Если вам понравилась новость или появились вопросы, оставьте ваш комментарий или обсудите эту новость в нашем Telegram-канале

Компания Microsoft переносит DeepSeek в свое «облако»

Print 🖨 PDF 📄

Поделиться:

Теги

Китай сегодня31.01.2025

Добавить комментарий Отменить ответ

Китай сегодня - бизнес новости
Спасибо за ваши уточнения. Соберем больше свежих данных, обн...
Китай сегодня - бизнес новости
Мошенников полно в любых странах, нужно внимательно проверят...
Дмитрий Валентинович
А где данные торговли между Россией и Китаем?...
Юрий
Оба описанных автором способа не работают, пытаюсь через апе...
Фарход
От имени компании TEMU из Китая взял себе представителя этой...

Что такое DeepSeek?

Китайский стартап DeepSeek: “Больше – уже не всегда умнее”

Модель с открытым исходным кодом

Подпишитесь на обновления и получайте новые статьи на почту!

Похожие статьи

105-летию Коммунистической Партии Китая

Россия–Китай. В Москве прошел телемост по Китайско-российскому сотрудничеству в сфере туризма

3D-сканирование Shining 3D: точность до 4 микрон и ИИ-технологии

ИИ-платформа 360 Nano Work: запуск корпоративных агентов

Добавить комментарий Отменить ответ