Китайцы создали нейросеть DeepSeek, которая во многом лучше ChatGPT

На прошлой неделе мир потрясла новость — китайцы создали и выкатили нейросеть DeepSeek, которая тут же стала самым основным конкурентом американской ChatGPT. Данное событие привело к тому, что капитализация компании NVIDIA рухнула за 1 сутки сразу на 600 млрд $ — для США ровно неделю назад это был «черный понедельник».
Что же такого сделали наши соседи, что весь мир об этом говорит? Разберемся подробнее вместе с Игорем Позняевым — автором проекта «Блог системного администратора». Не забудьте поставить лайк и подписаться на мой блог.
DeepSeek — нейросеть, которую разработала одноименная компания, созданная в 2023 году. Работает абсолютно бесплатно и без каких-либо ограничений. Система использует очень эффективную модель обучения «mixture of experts» — способна работать с данными раздельно и применять экспертность в определенной сфере.
Модель обучалась всего пару месяцев на небольшом кластере, который состоит из видеокарт NVIDIA H800. Создание сети обошлось в скромные 5,6 млн $, в то время как ChatGPT стоил более 100. На создание сети ушло всего 2000 GPU вместо 100 000, которые использует OpenAI для своей ChatGPT. Более того, для DeepSeek необязательно использовать инфраструктуру из серверного оборудования.
В отличие от ChatGPT код нейросети DeepSeek полностью открыт — его можно запустить на мощном железе и обучить самостоятельно под какие-то определенные задачи. Нейросеть может программировать, работать с текстами, придумывать истории и рассказы, решать самые различные задачи, искать информацию в сети и даже помогать в бизнесе. Более того, если доступ в сеть у ChatGPT ограничен прошлыми годами, то DeepSeek не имеет никаких ограничений.
По факту компания OpenAI, разработчик ChatGPT, оказалась никому не нужна! Выход DeepSeek привел к тому, что стоимость подписки на ChatGPT упала с 20$ до 10$ и также обрушила рынок акций NVIDIA.
Сейчас две компании Microsoft и OpenAI проводят большое расследование — есть подозрение, что DeepSeek использует данные ChatGPT с помощью метода дистилляции. Если простыми словами, то этот термин означает способ обучения небольшой нейросети на основе уже подготовленных данных от крупной. Факт дистилляции не доказан, но результат уже есть — как мог, по факту, китайский стартап утереть нос всему миру, да еще с малым количеством затрат?
У крупных игроков уже есть вопросы к DeepSeek по поводу нарушения авторских прав. Нейросеть ChatGPT собирает и анализирует данные годами, а здесь получается, что все наработки были использованы и, более того, результат выдачи оказался намного лучше и точнее.
Посмотрим, чем все это закончится, но то, что на рынке искусственного интеллекта идет большая конкуренция — неоспоримый факт. Пройдет еще несколько лет и многие профессии попросту исчезнут — большую часть задач будет делать нейросеть в миллионы раз быстрее человека. Об этом, кстати, ранее записывал видео:
А пользуетесь ли вы нейросетями? Напишите в комментариях