DeepSeek: パラダイムシフト、それが人類にとって意味すること

Deepseek China SecurityFILE - スマートフォンアプリDeepSeekのページが2025年1月28日、北京のスマートフォン画面に表示されています。(AP Photo/Andy Wong, File)著作権 2025年 AP通信。無断転載を禁じますDeepSeekというクジラは2025年1月20日までは目に見えませんでした。そして、1月20日に青いクジラが世界の目の前に現れました。そのボディスラムは世界中に衝撃波を送りました。

DeepSeek-R1のリリースは、アメリカの例外主義だと投資家が考えていたいくつかのハードウェアおよびソフトウェア企業の市場価値を即座に崩壊させました。中国から最新のチップやAI知的財産を withholdingすることが追求すべき戦略だと考えられていました。しかし、それは間違いでした。 これが飛躍を生むものです。特に、中国のような製造および設計の強国にとって。皮肉なことに、DeepSeekの最新モデルは無料で使用できます。彼らはそれを無料で自社のサーバー上で運用しています。

一般目的の大規模言語モデルの開発は、パラメータとトレーニングデータのスケーリングを通じて、多くのブレークスルーをもたらしました。2022年から2023年にかけてChatGPT-3.5および4.0がリリースされ、AIの一般目的の可能性が一般の人々に解き放たれました。このアプローチは、計算とデータの需要がより大きく、より優れたプロセッサを促進するため、コストを非常に増加させました。2023年末および2024年、さらには現在においても、電力を大量に消費するデータセンターの建設がモデルの性能を向上させる唯一の方法であると考えられていました。計算能力と最新のチップへのアクセスを制限することは、これらの強力なモデルの供給源として中国を制約するものと考えられていました。しかし、DeepSeekによってそのパラダイムは変わりました。

Nvidiaのような企業は、その株価が発表の影響を大きく受けたが、その後回復し、成長を遂げた。教訓は世界の市場には伝わらなかった。AIの台頭とその利用によって支えられている企業が、新しい手法とトレーニングや推論に必要な計算能力の減少の組み合わせによって地に引き戻される可能性が最悪の事態を迎えるかもしれない。

埋没コストと、自らの強力な経済的支持者による切り替えコストが、長期的な視点を妨げ、アメリカのAIをその道に固定させています。成功は自己満足を生み出し、成功を生み出したモデルへの固執を引き起こします。急速に発展する分野であるAIにおいて、アルゴリズム、プロセス、実践に固執することは致命的です。DeepSeekは、コンピューティングとデータをただ積み上げるだけでは指数関数的な進歩にはならないことを示しました。これは、多くの分野からの教訓であり、しばしば「今回は違う」という過度に使われるが誤った格言によって無視されます。革新は馴染みのあるパターンに従います;ゆっくりと、そして急速に。

あなたのためにもっと## 効率

DeepSeekのトレーニングと運用コストは、他のモデルに比べてはるかに低いです。最近のプレゼンテーションでは、DeepSeekが600万ドル、MetaのオープンソースモデルLlamaのコストが6億ドルであることが示されました(。コストは1/100です。他のモデル、ChatGPTを含む、のコストはさらに高くなります。コスト削減は、DeepSeekの独自の発見を強化学習と蒸留を用いたトレーニングに実装した結果です。さらに、このモデルは中国語の生成に非常に効率的です。3ヶ月前の時点で、多くの中国企業がDeepSeekに加入し、AI革命に参加しました。国家のチャンピオンとして、政府の産業政策はDeepSeekを支援しています。

RLというトレーニング手法は、アマースト大学で発明されました。2024年ACMチューリング賞の受賞者であるアンドリュー・バートとリチャード・サットンは、古典的な強化学習技術の発明者です。LLMや他の大規模モデルにおいて、こうしたアプローチは教師あり学習に該当します。このモデルは、従来は人間からのフィードバックによって洗練され、これをRLHF )人間のフィードバックによる強化学習(と呼びます。これを教師ありファインチューニングと呼びます。人間が監督者です。DeepSeek R1のクリエイターが発表した論文では、彼らがどのようにRLを修正したかについて詳しく説明しています。

スケールで人間が関与するものは、すべて多くの資金を必要とします。人間を排除することで、トレーニングが安価になります。モデルのバージョンは、他のモデルをファインチューニングするために使用されます。言い換えれば、一つのモデルが監督として機能し、もう一つがトレーニングされます。MiniMax-M1のようなモデルを持つ新しい企業の登場は、このシフトをさらに象徴しています。このような技術は、従来のスケーリングを使用して作成されたモデルを追い越すでしょう。

DeepSeek-R1は、複数の戦略を活用した進化を通じて効果的でした。既存の技術に基づく新しい方法の組み合わせにより、トレーニングと推論が時間とリソースの面で効率的になりました。詳細はこの記事にあります。要するに、大規模言語モデルの作成と運用のすべての側面は、コストと時間の効率を高めるために変更され、強化され、または再設計されました。

ミニマックス-M1

MiniMax-M1は、DeepSeek-R1のトレーニングコストを90%削減したと主張しています。彼らはモデルを50万ドルのコストでトレーニングしました。これをDeepSeek-R1の600万ドルとLLaMaの6億ドルと対比してください。DeepSeekとMiniMaxの両方が公表した数字には疑念が持たれています。

効率は、いわゆるライトニングアテンションを用いてRLをさらに洗練させることによって向上しました。これは主に、数学的および論理的推論やコーディングなどの長いコンテキストの問題に対する決定論的な問題に関するものです。ミニマックスは、オープンソースのAIホストであるHuggingFaceを通じて利用可能です。

プライバシー

DeepSeekが自社の利用のためにプライベートデータを収集しているのではないかという懸念があります。この現象はAIやソーシャルメディアの世界全般に広がっています。DeepSeekや他の民間企業とプライベートデータを共有することの問題は、それらがモデルを洗練するために使用されるという事実です。DeepSeekや他の中国に拠点を置く企業の場合、データが中国政府に届くことへの恐れがあります。アメリカにあるプライベートAI企業も同様のことを行っており、法律によって強制されると、データをアメリカ政府と共有します。この時点では、そのようなシナリオはより不安を引き起こします。政府が私たちの身体や家だけでなく、令状なしで私たちの心をも捜索できるのであれば、第四修正は無視されることになります。

DeepSeekのリスクについてさらに読むには、Hidden Layerのこの分析を読んでください。Hidden Layerのビジネスモデルはこのような分析に基づいているため、分析を注意深く見て、他のオープンモデルに関する彼らの作業と比較するのが最良です。

オープンソースAIモデル

オープンソース国際 )OSI( はオープンソースAIの定義を持っています。現在は1.0であり、改訂の対象となります。ソフトウェアのオープンソース定義と同様に、ユーザーは制限なしに使用、観察、修正、配布することができます。AIモデルはトレーニングデータに大きく依存しています。AIの使用は推論を伴い、リソースを消費します。トレーニングにかかる費用は推論の費用とは別です。オープンソースソフトウェアの古典的な定義では、ソースコードはすべてのユーザーが使用、観察、修正、配布できるように利用可能です。AIのオープンソースを厳密に解釈すると、ソースコードにはモデルをトレーニングするために使用されたデータが含まれるべきです。しかし、これは実用的ではないかもしれず、オープンソースAIのOSI定義の一部でもありません。

これはオープンソースソフトウェアに関するOSIのガイダンスとは大きく異なります。もう一つの違いは、モデルの重みとハイパーパラメータの可観測性です。学習フェーズ中にモデルの重みが洗練されます。モデルの重みは、モデルが現在の形で具現化されており、モデルが受けたすべてのトレーニングを結晶化しています。ハイパーパラメータは、学習設定の初期構成を制御します。オープンモデルでは、モデルの重みとモデルのパラメータはオープンであることを意図しています。

オープンソースAIモデルはオープンウェイトモデルと呼ばれることがあります。中国の多くのモデルはオープンウェイトモデルであり、Qwen )はAliBababa(からのものです。この競争はOpenAIにもオープンウェイトモデルをリリースさせる圧力をかけました。これはgpt-ossベースモデルで、2つのバリアントがあります。

未来

私たちは、マルチモーダルプロンプトとマルチモーダル生成の背後にある技術に深入りしていません。マルチモーダルとは、テキストだけでなく、画像、音声、さらにはビデオも含むことを意味します。MiniMaxとDeepSeekは、これらの機能を持っています。ハードウェアとノウハウへのアクセスを制限することは真のイノベーションを妨げることはできないことは明らかです。そのような制約は、AIの開発を安価にし、ハードウェアと電力資源を低く抑えることで、複数のパラダイムシフトを生み出します。これにより、私たちはコモディティハードウェア上でモデルを微調整し、実行できる民主的で分散型の未来を創造することができます。これらの進展は、人類を助けるためにこれらの能力を制御し、活用できるようになることへの希望を私たちに与えます。

H-1.8%
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)