DeepSeek, пояснення: що це і як це працює

DeepSeek, пояснення: що це і як це працює

Що таке DeepSeek?

DeepSeek — це модель штучного інтелекту (чат-бот), яка працює схоже до ChatGPT, дозволяючи користувачам виконувати завдання, такі як програмування, логічні міркування та розв’язання математичних задач. Її потужністю є модель R1, яка містить 670 мільярдів параметрів, і станом на 28 січня 2025 року це є найбільша відкрита велика мовна модель.

DeepSeek розробила дві моделі: v3 і R1. Модель R1 від DeepSeek вирізняється своєю здатністю до міркування, створюючи відповіді поступово, імітуючи процеси людського мислення. Такий підхід знижує використання пам’яті, роблячи її більш економічно вигідною в порівнянні з багатьма конкурентами. DeepSeek виділяється серед AI-чат-ботів завдяки своїй економічній ефективності: розробка коштувала всього 6 мільйонів доларів, що є незначною частиною витрат на OpenAI GPT-4, які перевищують 100 мільйонів доларів.

Методи, які застосовувало DeepSeek для створення цієї моделі, залишаються невідомими. Засновник DeepSeek, за даними, накопичував чипи Nvidia A100, які з вересня 2022 року заборонено експортувати до Китаю, для створення його AI-системи. Компанія нібито мала запас понад 50 000 одиниць цих чипів, а також менш потужні, але більш доступні чипи H800, що дозволило розробити потужну, але менш затратну модель штучного інтелекту.

Здатність працювати паралельно з підмножиною параметрів моделі та значно нижчі витрати на навчання відрізняють DeepSeek серед конкурентів, таких як ChatGPT, Google Gemini, Grok AI та Claude AI.

DeepSeek R1 зробила свій код відкритим, хоча її дані для навчання залишаються закритими. Така прозорість дозволяє перевірити твердження компанії. До того ж, обчислювальна ефективність моделі обіцяє швидші й дешевші дослідження в галузі ШІ, відкриваючи нові можливості для глибшого вивчення механізмів великих мовних моделей (LLMs).

Ключові архітектурні інновації моделі DeepSeek-V2

DeepSeek-V2 впроваджує кілька важливих архітектурних нововведень, використовуючи нову архітектуру MoE (Mixture-of-Experts) та механізм MLA (Multi-head Latent Attention).

Ознайомимося з основними компонентами моделі DeepSeek-V2:

  • Архітектура Mixture-of-Experts (MoE): Використовується у DeepSeek, активує лише підмножину параметрів моделі, одночасно мінімізуючи обчислювальні ресурси для обробки запиту. По суті, модель замість одного масивного нейронного мережевого модуля складається з кількох менших мереж “експертів”, кожна з яких спеціалізується на різних аспектах вхідних даних. Під час обробки активується лише необхідна підмножина цих експертів, що робить обчислення ефективнішим.
  • Багатоголовий латентний механізм уваги (MLA): MLA — це новий механізм уваги, що значно зменшує використання пам’яті моделі. Традиційні механізми уваги вимагають зберігання великих обсягів інформації, що може бути дорогоцінним у плані обчислювань. MLA стискає цю інформацію у менші “латентні” представлення, дозволяючи моделі ефективніше обробляти інформацію.

До того ж моделі ШІ покращують свої результати за допомогою парадигми навчання методом спроб і помилок, що дуже наближається до людського способу навчання.

Здатність DeepSeek поєднувати складні можливості ШІ з економічною розробкою відображає стратегічний підхід, який може вплинути на майбутнє великих мовних моделей. Випуск DeepSeek R1 був описаний Марком Андреессеном як «момент Спутника» для ШІ США, символізуючи значний виклик американському домінуванню у сфері ШІ.

Момент Спутника означає подію, що викликає раптове усвідомлення технологічного або наукового відставання між державами чи суб’єктами, що призводить до оновленого фокусу на дослідження та інновації.

Чи знали ви? Том Голдштейн, експерт зі ШІ та професор Університету Меріленду, оцінив, що запуск ChatGPT обходиться приблизно в 100 тисяч доларів щодня або вражаючі 3 мільйони доларів щомісяця. Його розрахунки базувалися на витратах за користування Azure Cloud, платформи, що надає необхідну серверну інфраструктуру.

Хто розробив DeepSeek?

Компанію DeepSeek заснував у грудні 2023 року Лян Венфен, який наступного року запустив першу велику мовну модель. Лян, випускник Чжецзянського університету зі ступенями в галузях електронної інформаційної інженерії та комп’ютерної науки, став ключовою фігурою в світовій індустрії штучного інтелекту.

На відміну від багатьох підприємців ШІ із Силіконової долини, Лян має значний досвід роботи у фінансах. Він є генеральним директором High-Flyer — хедж-фонду, що спеціалізується на кількісній торгівлі, який використовує штучний інтелект для аналізу фінансових даних і прийняття інвестиційних рішень. У 2019 році High-Flyer став першим у Китаї кількісним хедж-фондом, що залучив понад 100 мільярдів юанів (13 мільйонів доларів).

Лян заснував DeepSeek як окрему компанію, відокремлену від High-Flyer, хоча хедж-фонд залишається значним інвестором. DeepSeek в основному займається розробкою та впровадженням передових моделей штучного інтелекту, зокрема великих мовних моделей (LLMs).

Наразі названий “Семом Альтманом Китаю”, Лян відкрито виступає за необхідність інновацій у Китаї, а не лише імітацій розробок у ШІ. У 2019 році він наголошував на необхідності розвитку сектора кількісної торгівлі Китаю для конкурування із США. Він вважав, що справжній виклик для ШІ в Китаї полягає у переході від імітації до інновацій, що вимагають оригінального мислення.