Бюлетин

„Либерален Преглед“
в неделя

Изгледи - Технологии

Как китайският стартъп за изкуствен интелект DeepSeek създаде модел, който съперничи на OpenAI

Детайли

Автор: Зейи Янг

Създадена на 28 януари 2025

Посещения: 2577

6 мин. четене

На 20 януари DeepSeek, сравнително неизвестна изследователска лаборатория за изкуствен интелект от Китай, пусна модел с отворен код, за който бързо се заговори в Силициевата долина. Според документ, чийто автор е компанията, DeepSeek-R1 превъзхожда водещите модели в индустрията като OpenAI o1 по няколко математически и логически показателя. Всъщност по много важни показатели – възможности, цена, отвореност – DeepSeek поставя западните гиганти в сферата на AI под сериозно предизвикателство.

Успехът на DeepSeek показва един непредвиден резултат от технологичната студена война между САЩ и Китай. Американският контрол върху износа силно ограничи възможностите на китайските технологични фирми да се конкурират в областта на ИИ по западния начин – чрез неограничено увеличаване на ресурсите, като се купуват повече чипове и се удължава времето за обучение. В резултат на това повечето китайски компании се съсредоточиха върху приложения надолу по веригата, вместо да създават свои собствени модели. Но с последната си версия DeepSeek доказва, че има и друг начин да се постигне успех: чрез оптимизиране на основната структура на ИИ моделите и по-ефективно използване на ограничените ресурси..

„За разлика от много китайски фирми за изкуствен интелект, които разчитат основно на достъпа до усъвършенстван хардуер, DeepSeek се фокусира върху максимално оптимизиране на ресурсите, управлявани от софтуера“, обяснява Марина Джан, доцентка в Технологичния университет в Сидни, която изучава китайските иновации. „DeepSeek е възприела методите с отворен код, обединявайки колективния експертен опит и насърчавайки съвместните иновации. Този подход не само смекчава ограниченията на ресурсите, но и ускорява разработването на авангардни технологии, като отличава DeepSeek от по-изолираните конкуренти.“

И така, кой стои зад стартъпа за изкуствен интелект? И защо изведнъж пускат водещ в индустрията модел и го раздават безплатно? Списание WIRED разговаря с експерти от китайската индустрия за изкуствен интелект и прочете подробни интервюта с основателя на DeepSeek Лян Уенфън, за да разкрие историята зад стремителния възход на фирмата. (DeepSeek не отговори на няколко запитвания, изпратени от WIRED.)

Звезден хедж фонд в Китай

Дори в в рамките на китайската индустрия за изкуствен интелект DeepSeek е нетрадиционен играч. Той стартира като Fire-Flyer, изследователски клон за дълбоко обучение на High-Flyer, един от най-добре представящите се количествени хедж фондове в Китай. Основан през 2015 г., хедж фондът бързо придобива известност в Китай, като става първият количествен хедж фонд, набрал над 100 млрд. юана (около 15 млрд. долара). (От 2021 г. насам цифрата е спаднала до около 8 млрд. долара, въпреки че High-Flyer остава един от най-важните количествени хедж фондове в страната).

В продължение на години High-Flyer се е запасявал с графични процесори и е изграждал суперкомпютри Fire-Flyer, за да анализира финансови данни. След това, през 2023 г., Лианг, който има магистърска степен по компютърни науки, решава да вложи ресурсите на фонда в нова компания, наречена DeepSeek, която ще изгражда собствени авангардни модели – и се надява да развие изкуствен общ интелект. Сякаш Джейн Стрийт [една от водещите инвестиционни фирми в САЩ] е решила да се превърне в стартъп за изкуствен интелект и да изгори парите си за научни изследвания.

Смела визия. Но по някакъв начин тя проработва. „DeepSeek представлява ново поколение китайски технологични компании, които дават приоритет на дългосрочния технологичен напредък пред бързата комерсиализация“, казва Джан.

Лианг заявява пред китайското технологично издание 36Kr, че решението е било продиктувано от научно любопитство, а не от желанието да се реализира печалба. „Не бих могъл да намеря комерсиална причина [за основаването на DeepSeek], дори и да ме попитате“, обяснява той. „Защото от търговска гледна точка не си заслужава. Изследванията в областта на фундаменталните науки имат много ниско съотношение на възвръщаемост на инвестициите. Когато ранните инвеститори на OpenAI са дали пари, те със сигурност не са мислили за това каква възвръщаемост ще получат. По-скоро наистина са искали да направят това нещо.“

Днес DeepSeek е една от малкото водещи фирми за изкуствен интелект в Китай, която не разчита на финансиране от технологични гиганти като Baidu, Alibaba или ByteDance.

Млада група гении, които искат да се докажат

Според Лианг, когато е сформирал изследователския екип на DeepSeek, той не е търсил опитни инженери, които да създадат продукт, насочен към потребителите. Вместо това той се е фокусирал върху докторанти от най-добрите китайски университети, включително Пекинския университет и университета Цинхуа, които са искали да се докажат. Според китайското технологично издание QBitAI много от тях са публикували в най-добрите списания и са печелили награди на международни научни конференции, но не са имали опит в индустрията.

„Основните ни технически позиции се заемат предимно от хора, които са завършили тази година или през последните една-две години“, казва Лян пред изданието 36Kr през 2023 г. Стратегията за наемане на служители е помогнала за създаването на култура на сътрудничество в компанията, където хората са били свободни да използват достатъчно компютърни ресурси, за да осъществяват нестандартни изследователски проекти. Това е рязко различен начин на работа в сравнение с утвърдените интернет компании в Китай, където екипите често се конкурират за ресурси. (Скорошен пример: ByteDance обвини бивш стажант – носител на престижна академична награда – че е саботирал работата на колегите си, за да натрупа повече компютърни ресурси за своя екип.)

Лианг казва, че студентите могат да бъдат по-подходящи участници в изследвания с високи инвестиции и ниска печалба. „Повечето хора, когато са млади, могат да се посветят изцяло на дадена мисия без утилитарни съображения“, обяснява той. Т

Фактът, че тези млади изследователи са почти изцяло образовани в Китай, допринася за техния стремеж, казват експертите. „Това младо поколение въплъщава и чувство на патриотизъм, особено когато се ориентира в ограниченията и задънените улици на САЩ в областта на критичните хардуерни и софтуерни технологии“, обяснява Джан. „Тяхната решимост да преодолеят тези бариери отразява не само личната амбиция, но и по-широкия ангажимент за утвърждаване на позицията на Китай като световен лидер в областта на иновациите.“

Иновации, породени от кризата

През октомври 2022 г. правителството на САЩ започна да въвежда ограничения върху износа, които сериозно ограничиха достъпа на китайските компании за изкуствен интелект до авангардни чипове (като H100 на Nvidia). Този ход представлява проблем за DeepSeek. Фирмата е започнала със запас от 10 000 A100, но се нуждае от повече, за да се конкурира с фирми като OpenAI и Meta. „Проблемът, с който се сблъскваме, никога не е бил финансирането, а контролът върху износа на усъвършенствани чипове“, казва Лианг пред 36Kr във второ интервю през 2024 г.

DeepSeek трябва да измисли по-ефективни методи за обучение на своите модели. „Те оптимизираха архитектурата на моделите си, като използваха цяла ссерия от инженерни трикове – персонализирани схеми за комуникация между чиповете, намаляване на размера на полетата, за да се спести памет, и иновативно използване на подхода за смесване на моделите“, казва Уенди Чанг, софтуерен инженер, превърнал се в политически анализатор в Института за изследвания на Китай „Меркатор“. „Много от тези подходи не са нови като идеи, но успешното им комбиниране за създаване на авангарден модел е забележително постижение.“

Освен това DeepSeek постига значителен напредък в областта на Multi-head Latent Attention (MLA) и Mixture-of-Experts – два технически проекта, които правят моделите на DeepSeek по- ефективни, тъй като изискват по-малко компютърни ресурси за обучение. Всъщност последният модел на DeepSeek е толкова ефективен, че според изследователската институция Epoch AI за обучението му е била необходима една десета от изчислителната мощност на сравнимия модел Llama 3.1 на Meta.

Готовността на DeepSeek да сподели тези иновации с обществеността му е спечелила значителен авторитет в световната изследователска общност на изкуствения интелект. За много китайски компании за изкуствен интелект разработването на модели с отворен код е единственият начин да настигнат западните си колеги, тъй като привлича повече потребители и сътрудници, които на свой ред помагат за развитието на моделите. „Сега те показаха, че могат да се създават авангардни модели с по-малко, макар и все още много пари, и че настоящите норми за създаване на модели оставят много възможности за оптимизация“, казва Чанг. „Със сигурност занапред ще видим още много опити в тази посока.“

Новината може да означава неприятности за сегашния контрол на износа от страна на САЩ, който се фокусира върху създаването на пречки пред изчислителните ресурси.

„Съществуващите оценки за това колко изчислителна мощност за изкуствен интелект има Китай и какво могат да постигнат с нея могат да бъдат сериозно променени,“ предупреждава Чанг.

Източник

Зейи Янг е старши сътрудник на списание WIRED, който се занимава с технологии и бизнес в Китай. Преди да се присъедини към WIRED, той е бил китайски репортер в MIT Technology Review и технологичен репортер в Protocol.