Искусственный интеллект (ИИ)Новости КитаяТехнологии

Китайский стартап DeepSeek меняет правила игры в индустрии ИИ

Почему китайский ИИ-стартап DeepSeek будоражит мир технологий?

Сообщество искусственного интеллекта (ИИ) в восторге от DeepSeek-R1, новой модели с открытым исходным кодом, разработанной китайским стартапом DeepSeek.

Выпущенная 20 января, к понедельнику она быстро взлетела на вершину чарта бесплатных приложений в магазине Apple, обогнав ChatGPT от OpenAI.

По словам представителей DeepSeek (официальный сайт DeepSeek), в таких задачах, как математика, кодирование и рассуждения на естественном языке, производительность этой модели сопоставима с ведущими моделями от таких тяжеловесов, как OpenAI, но при этом она стоит лишь малую часть денег и вычислительных мощностей своих конкурентов.

Вот что удалось сделать DeepSeek и почему она застала врасплох индустрию ИИ.

Что такое DeepSeek?

Официально известная как DeepSeek Artificial Intelligence Fundamental Technology Research Co, Ltd, компания была основана в июле 2023 года. Будучи инновационным технологическим стартапом, DeepSeek занимается разработкой передовых больших языковых моделей (LLM) и связанных с ними технологий.

С момента выпуска своей первой модели “DeepSeek LLM” в январе прошлого года компания прошла через множество раундов итераций. В декабре стартап запустил свою открытую модель LLM “V3”, которая, по сообщениям американских СМИ, обогнала все открытые модели LLM компании Meta и соперничала с закрытой моделью GPT4-o (официальный сайт chatGPT) компании OpenAI.

В только что выпущенной модели R1 был совершен важный технологический прорыв – использование чистых методов глубокого обучения позволило искусственному интеллекту спонтанно появляться с возможностью рассуждать.

В отличие от традиционных подходов, таких как Chain-of-Thought (CoT) и Supervised Fine-Tuning (SFT), DeepSeek выделилась в индустрии ИИ, приняв Reinforcement Learning (RL) в качестве основного метода обучения.

В то время как CoT и SFT опираются на пошаговые рассуждения и огромные объемы помеченных данных соответственно, RL позволяет моделям обучаться через механизмы взаимодействия и вознаграждения, что делает его более подходящим для сложных и динамичных задач.

Внедрение RL позволило DeepSeek улучшить рассуждения, адаптивность и эффективность своих моделей, что вывело ее на передовые позиции в этой области.

Читайте и другие НОВОСТИ КИТАЯ  Отстающие от конкурентов, китайское приложение Tencent для короткометражных видео переходит на фильмы и телевидение

На вопрос о значении слова “DeepSeek” новейший чат-бот R1 ответил: “Название отражает миссию компании по глубокому изучению и развитию основополагающих технологий ИИ, направленную на расширение границ инноваций и применения ИИ”.

Китайский стартап DeepSeek: “Больше – уже не всегда умнее”

“Согласно техническому отчету модели V3, стоимость производства DeepSeek составляет около 5,57 млн долларов, что делает его самым недорогим среди LLM.

Известный американский экономист Джеффри Сакс (Jeffrey Sachs), профессор и директор Центра устойчивого развития при Колумбийском университете, сказал, что прорыв, совершенный DeepSeek, показывает возможность создания передового ИИ при гораздо меньших затратах, чем принято считать в США.

DeepSeek-V3 позволяет “выглядеть легко сегодня с открытым весовым релизом LLM передового уровня, обученного при смешном бюджете (2 048 GPU за 2 месяца, $6M)”, – написал Андрей Карпати, один из основателей OpenAI, на сайте X.

По сравнению с другими известными моделями, китайский стартап DeepSeek добился снижения стоимости на порядок.

Стоимость «резко контрастирует с сотнями миллионов, если не миллиардами, которые американские компании обычно вкладывают в подобные технологии», – сказал Марк Андреессен (Marc Andreessen), известный технологический инвестор, назвав R1 DeepSeek «одним из самых удивительных прорывов», которые он когда-либо видел.

Развитие индустрии ИИ долгое время зависело от наращивания вычислительных мощностей. Экономичная модель DeepSeek может перевернуть представление об ИИ.

Похвалив технический отчет DeepSeek-V3 как “очень хороший и подробный”, Карпати сказал, что отчет достоин прочтения.

Американский инвестиционный банк и поставщик финансовых услуг Morgan Stanley считает, что DeepSeek демонстрирует альтернативный путь к эффективному обучению моделей по сравнению с нынешней гонкой рук среди гипермасштабируемых компаний за счет значительного повышения качества данных и улучшения архитектуры моделей.

“Больше – уже не всегда умнее”, – заявили в компании.

Модель с открытым исходным кодом

“Новая модель DeepSeek впечатляет тем, как эффективно они создали модель с открытым исходным кодом, которая выполняет вычисления в режиме вывода и является суперэффективной”, – сказал генеральный директор Microsoft Сатья Наделла (Satya Nadella).

Читайте и другие НОВОСТИ КИТАЯ  Canalys ожидает, что экспорт автомобилей из Китая достигнет 5,4 миллиона в 2023 году, доля NEV из Китая составит 40%

Открытый исходный код позволяет исследователям, разработчикам и пользователям получить доступ к базовому коду модели и ее “весам” – параметрам, которые определяют, как модель обрабатывает информацию, – что позволяет им использовать, изменять или улучшать модель в соответствии со своими потребностями.

DeepSeek значительно выиграл от принципов открытого исходного кода и, в свою очередь, демонстрирует сильное стремление делиться знаниями и вносить вклад в коллективное развитие технологий.

Главный специалист по искусственному интеллекту компании Meta Янн ЛеКун (Yann LeCun) сказал: “Они выдвигали новые идеи и строили их на основе чужих наработок. Поскольку их работы опубликованы и имеют открытый исходный код, каждый может извлечь из них пользу”.

“В этом и заключается сила открытых исследований и открытого исходного кода”, – добавил ЛеКун.

Американский экономист Сакс, вторя ЛеКуну, сказал: “Модель бизнеса и развития DeepSeek – это открытый исходный код, что является убедительной и успешной моделью для науки, технологий и бизнеса”.

Если OpenAI изначально начинала как организация с открытым исходным кодом, но затем перешла на модель с закрытым исходным кодом, то DeepSeek пошла по другому пути.

Подчеркивая важность развития сотрудничества и инноваций на основе принципов открытого исходного кода, Лян Вэньфэн (Liang Wenfeng), основатель DeepSeek, сказал, что создание надежной технологической экосистемы является приоритетной задачей.

“Мы не будем выбирать закрытый исходный код“, – сказал Лян.

Новость Китая “Китайский стартап DeepSeek меняет правила игры в индустрии ИИ” подготовлена Порталом PRC.TODAY по материалам сайта China Daily.

Если вам понравилась новость или появились вопросы, оставьте ваш комментарий или обсудите эту новость в нашем Telegram-канале 

https://t.me/PRC_TODAY
Мы в Telegram

посмотрите другие новости Китая на prc.today

Компания Microsoft переносит DeepSeek в свое «облако»

Поделиться:

Похожие статьи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Back to top button