Jadi sekarang di mana ini akan masuk akal untuk inferensi, kami hampir tidak dapat memuat Q8 Qwen Coder 3 yang terkuantisasi dan instance Kimi K2 di H200 kami. Kimi K2 @ Q8 tidak menyisakan ruang untuk cache kv untuk konteks. Apakah model-model ini bisa muat di satu instance 8xB200? Mungkin, kami akan mencoba minggu ini.

LL-0.21%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 4
  • Bagikan
Komentar
0/400
HallucinationGrowervip
· 07-27 12:03
Ngapain bikin yang begitu berlebihan
Lihat AsliBalas0
TerraNeverForgetvip
· 07-27 12:02
Ini terlalu dapatkan likuidasi.
Lihat AsliBalas0
FadCatchervip
· 07-27 11:58
Mengapa ruang cache kv ini sudah habis?
Lihat AsliBalas0
FloorSweepervip
· 07-27 11:46
Kartu grafis tidak muat, mau ngapain?
Lihat AsliBalas0
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)