當(dāng)前位置：首頁(yè) > 新聞資訊 > 人工智能應(yīng)用 > DeepSeek帶來的AI變革,在低精度FP8的模式下訓(xùn)練大模型,計(jì)算成本降低約1000倍

DeepSeek帶來的AI變革,在低精度FP8的模式下訓(xùn)練大模型,計(jì)算成本降低約1000倍

來源：華福證券編輯：創(chuàng)澤時(shí)間：2025/3/6 主題：其他 [加盟]

一、用戶量：海外加速出圈，迅速登頂全球下載榜單

1、網(wǎng)頁(yè)端：重度用戶為主，DeepSeek 在 24 年 12 月 26 日推出V3（對(duì)標(biāo) GPT4o），因其顯著的性能，用戶迅速開始增長(zhǎng)，同時(shí)在 1月 20 日發(fā)布 R1（對(duì)標(biāo) GPT-o1）后，進(jìn)一步出圈。

2、APP 端：大眾用戶為主，R1 推出后，追平 GPT-o1，迅速出圈海外。根據(jù)點(diǎn)點(diǎn)數(shù)據(jù)，從 DeepSeek 在美國(guó)下載排名從 1 月 22 日的 201名，迅速在 1 月 27 日登頂?shù)谝幻�；根�?jù)七麥數(shù)據(jù)，截止 1 月 30 日，DeepSeek 在 168 個(gè)國(guó)家位居下載榜第一名。

二、DeepSeek 偏好激進(jìn)性創(chuàng)新：架構(gòu)（MOE+MLA）+精度（FP8）

1、MOE 架構(gòu)創(chuàng)新：相比過去主流模型的 MOE 專家模型停留在8~16 個(gè)，而 DeepSeek 每個(gè) MoE 層包含 1 個(gè)共享專家和 256 個(gè)路由專家，有助于降低模型推理時(shí)激活的參數(shù)量。

2、MLA 架構(gòu)創(chuàng)新：MLA 通過聯(lián)合壓縮鍵值矩陣為低秩向量，將多個(gè)頭的鍵值信息融合，使推理時(shí)僅需緩存少量低秩向量，大幅降低 KV 緩存需求，減少內(nèi)存占用。

3、訓(xùn)練特色：突破大模型訓(xùn)練固定思維（一般模型權(quán)重和梯度使用 FP16，優(yōu)化器參數(shù)使用 FP32），敢于嘗試在低精度 FP8 的模式下訓(xùn)練大模型，并且該嘗試同樣出現(xiàn)了較好的效果。

三、DeepSeek 開源對(duì) AI 應(yīng)用和 AI 終端的影響：產(chǎn)品力競(jìng)爭(zhēng)時(shí)代

DeepSeek 從 V3 到 R1，將進(jìn)一步推動(dòng)全行業(yè)大模型的提升，更快的追趕 GPT4o 和 GPT-o1；同時(shí)成本的下降，有助于 AI 應(yīng)用和 AI 終端的普及。未來行業(yè)競(jìng)爭(zhēng)將進(jìn)入“產(chǎn)品能力競(jìng)爭(zhēng)”，巨頭的流量?jī)?yōu)勢(shì)將進(jìn)一步凸顯。

四、DeepSeek 對(duì)推理成本的影響：用戶規(guī)模和使用頻次

未來推動(dòng)推理成本增加的核心因素：用戶規(guī)模和用戶使用頻次的增加。根據(jù) Grok 創(chuàng)始人，過去 60 年，每10年計(jì)算成本降低約1000倍，但人們的購(gòu)買量增加了 10 萬(wàn)倍，總支出反而增長(zhǎng)了 100 倍。

附件：DeepSeek帶來的AI變革,在低精度FP8的模式下訓(xùn)練大模型,計(jì)算成本降低約1000倍