Baichuan Zeki Wang Xiaochuan: Büyük bir modelle bir işe başladıktan 100 gün sonra, "kimsenin arazisini" bulduğumu doğruladım.

**Kaynak:**KurucuPark

Nisan ayında, Wang Xiaochuan sona erdiğini duyurdu ve büyük ölçekli bir model şirketi "Baichuan Smart" kurdu.

Baichuan Intelligent, Haziran ayında 7 milyar parametreli açık kaynaklı büyük bir model olan Baichuan-7B'yi piyasaya sürdü.

Temmuz ayında Baichuan Intelligent, 13 milyar parametreli açık kaynaklı büyük bir model olan Baichuan-13B'yi piyasaya sürdü.

Her iki model de çeşitli değerlendirmelerde iyi performans gösterdi ve yurt içi ve yurt dışında çok sayıda kullanıcı tarafından kabul gördü.

"Açık kaynak çok basit, herkes kendi kullanımı için kullanabilir, bu kendinle övünebileceğin bir şey değil."

Hızlı hareket ediyor, çoğu insanın düşündüğünden daha hızlı. Kendisi bile şaşırdı: yapmaya başladıktan sonra ilerleme beklenenden çok daha hızlı olacak.

AGI Playground konferansında Wang Xiaochuan, BCI'nin açık kaynak modeli yeteneklerinin kesinlikle Llama 2'yi geçeceğini açıkladı. Plana göre, Baichuan Intelligent gelecekte on milyarlarca ve yüz milyarlarca kapalı kaynaklı büyük modeli piyasaya sürecek.

Birkaç ay önce Wang Xiaochuan, çeşitli medyanın manşetlerinde "Çin'in OpenAI'si olmak" istedi.

Bu, halkın duymayı sevdiği bir slogan ama doğru bir tanım olmayabilir.

Wang Xiaochuan tam olarak ne yapmak istiyor? O ne yapacak? Üç aylık uygulamadan ve ilk sonuçları elde ettikten sonra, büyük ölçekli modeller çağında girişimciliğe ilişkin ilk elden anlayışı nedir?

Aşağıdaki içerik, Kurucu Park tarafından düzenlenen AGI Playground konferansında Geek Park'ın kurucusu ve başkanı Zhang Peng ile Baichuan Smart'ın kurucusu ve CEO'su Wang Xiaochuan arasındaki röportajdan alınmıştır.

Açık kaynak, OpenAI'nin yapmadığı şey

Zhang Peng:

En çok ilginizi çekebilecek şey, işinizi kurduktan sonra çok hızlı hareket etmiş olmanız ve biri 7B, diğeri 13B olmak üzere iki model çıkarmış olmanız ve geri dönüşlerin çok iyi olması.

Herkes çok merak ediyor, çünkü başlangıçta Çinli bir OpenAI olacağınızı düşündüler, ancak açık kaynak şeyler yaptığınızı görmek, açık kaynak teknolojik bir aşama mı, yoksa gelecekte düşünmeniz için kendisi yeni bir model mi?

Wang Xiaochuan:

Açık kaynak, teknik bir aşama olduğunu düşünüyoruz, aslında Çin'in OpenAI'si olmak, onun tam yolunu kopyalamak anlamına gelmiyor. Silikon Vadisi'nde OpenAI ile iletişim kurarken ideal olarak çok ileri gittiler, örneğin şu anda GPT-4 yaparken hesaplamalar yapmak için 20.000'den fazla karta ihtiyaçları var ve Çin'de hiç bu kadar büyük bir ölçek görmediler.

10 milyon GPU'yu birbirine bağlayan bir bilgi işlem modeli tasarladıklarını söylemekten gurur duyuyorlar.

10 milyon kart kavramı nedir? Nvidia'nın yıllık üretimi 1 milyon. 10 milyon kopya, aya gidebilecek bir plan (moonshot).

Ek olarak, uygulamaların, ürünlerin ve hatta bazı daha geniş teknolojilerin nasıl yapılacağı açısından bu, OpenAI'nin bir eksikliği olabilir veya şu anda özellikle ilgilenmedikleri bir şey olabilir.

Dolayısıyla Çin'de OpenAI yapmak, Amerika Birleşik Devletleri'ndeki ekolojik ortamdan çok farklı olacak.

Açık kaynaklı Llama 2'nin yakın zamanda piyasaya sürülmesinden sonra Çin'de bir çılgınlığa neden oldu.Herkes bunun manzarayı yeniden değiştireceğini hissetti, OpenAI bunu başaramadı. Bunun Google tarafından değil, Facebook (Meta) tarafından yapılması üzücü ve Google yok olmaya devam ediyor. Ancak Çin'de bu konuyu önceden gördük ve gelecekte açık kaynak ile kapalı kaynağın paralel bir duruma sahip olacağına inanıyoruz.

Zhang Peng:

Açık kaynak ve kapalı kaynak paralel durumda olacaktır.

Wang Xiaochuan:

Paralellik, biraz mevcut Apple sistemi ve Android sistemi gibidir. Daha fazla şirket katılmak istese bile kapalı kaynak API çağrılarını kullanmak yeterli değildir.Bu açık kaynak modelin ayrıca hizmetlerin %80'ini sağlaması ve son olarak herkese hizmet sağlamak için kapalı kaynak hizmetlere güvenmesi gerekir ve kalan %20'lik kısımda çok fazla açık kaynak talebi olacaktır. Amerika Birleşik Devletleri'nde daha önce yoktu ve Çin'de de benzer bir model yoktu. Bu nedenle, Llama duyurulduğu zaman Amerika Birleşik Devletleri için büyük bir şok olacak, ancak Çin'de de bir patlama var. Aslında, ciddi teknik değerlendirmeler, SuperClue gibi bazı ana akım değerlendirmeleri ve bazı büyük üreticiler ve şirketler arasındaki karşılaştırmaları içerir.Llama, Baichuan ile karşılaştırıldığında, Çin alanındaki kalitemizin Llama'dan çok daha üstün olduğu açıktır.

Çin'de açık kaynak modeller alanında tıpkı bizim cep telefonu sektörümüzde olduğu gibi önce ABD kullanıldı, sonra kendine yetişti.

Zhang Peng:

Llama 2'nin son zamanlarda çok popüler olduğunu ve Baichuan'ın onlardan daha iyi iş çıkaracağını düşünüyor musunuz?

Wang Xiaochuan:

Lama, Lama 1 ve 2'dir.

Öncelikle bu yıl Haziran ayında ilk 7B parametre modelini, Temmuz ayında ise 13B parametre modelini yayınladık. İngilizce göstergeler arasında en önemli gösterge MMLU'dur (Massive Multitask Language Learning) Bu temel gösterge, iki modelimiz Llama'dan (1) daha iyidir ve Çince'de önemli ölçüde öndedir.

Llama'nın Çince işlemesinin aslında yetersiz olduğunu biliyoruz. Llama (1) ile karşılaştırıldığında, Baichuan'ın İngilizcesi ölçütü kısmen karşılayabilir ve temel göstergeler aşılır ve Çince açıkça daha iyidir. Birçok kişi Llama'yı Çince'ye dönüştürüyor, ancak yine de yerel Baichuan kadar kolay değil.

Llama 2'nin yayınlanmasından sonra, geliştirmekte olduğumuz modelde 6'sı başarılan yaklaşık 9 teknik yenilik noktasını içeren teknik raporu da görebiliriz.

Diğer yerli modellerle karşılaştırıldığında buradaki düşüncemiz şu anda en yakın olanıdır.Zaten 6 puan yaptık ve sonra 2 puan beklemiyorduk ve bir tane de geçersiz oldu.Bu nedenle Llama2 ile karşılaştırırken sadece teknik düşüncede intihal yapmıyoruz, kendi düşüncemiz var. Bu yolda ileride önümüze fırsatlar çıkacağını düşünüyoruz.

Bugün ayrıca Çin'deki herkese, yalnızca yabancı ülkelerin kullandıklarında iyi olduğunu düşünmemelerini rica ediyorum. OpenAI artık gerçekten çok uzakta. Yıl sonuna kadar GPT-3.5 veya benzeri bir seviyeye ulaşmak zaman alacak, ancak açık kaynak modelinde zaten çok yakınız.

Zhang Peng:

Peki bir sonraki açık kaynak modeliniz, sizce Llama 2'den daha iyi olacak mı?

Wang Xiaochuan:

En azından Çince. Çince alanında artık aşıldı. Bir sonraki adım, küresel pazarın açık kaynak alanında Çin'in sesini duyurmak.

Zhang Peng:

Hem İngilizce hem de Çince, Llama2'den daha iyi olmalıdır, bu sizin için görünür ve ulaşılabilirdir.

Wang Xiaochuan:

Öngörülebilir gelecekte bunun olma ihtimali olduğunu düşünüyorum.

Zhang Peng:

Yani bakış açınız şu: Bugün, gelecekteki büyük modelimizin, kapalı kaynaklı, merkezileştirilmiş bir model olan OpenAI'ye doğru ilerlemek olduğunu basitçe söyleyemeyiz. Açık kaynak aslında büyük olanaklara sahiptir. Yani bir yandan teknolojiyi uygulamak ve teknik yetenekleri göstermek anlamına gelir, ancak gerçekten de iş modelleri ve değerleri içerebilir.

Aynı zamanda, açık kaynak temelinde, insanların Çin'de dünyanın en iyi Çin modelini yapmak için dört gözle bekleyebilecekleri bir şey.

Wang Xiaochuan:

Bu oldukça doğru bir şekilde özetliyor.

Arama deneyimi kötü bir atalet mi, yoksa iyi bir varlık mı?

Zhang Peng:

Geçmişte birçok yatırımcı, büyük ölçekli bir model oluşturmak için arama deneyimini kullanmanın kesinlikle başarılı olmayacağına inanıyordu. Bu aylar süren uygulamalardan sonra, onlarınkinden farklı olan orijinal yargınızı doğruladınız mı? Arama birikimi ve yetenekleri daha büyük modellere nasıl katkıda bulunur?

Wang Xiaochuan:

Bugünün (AI) başarısı OpenAI tarafından elde edildiğinden, ancak Google elde edilmediğinden, yatırımcıların ilk düşüncesi bu yeni teknolojinin aramanın tam tersi olduğudur. Sebebin teknoloji mi yoksa organizasyonel yönetim mi olduğunu ayırt etmeleri zor.

Bu tür bir seslendirmenin sebebi arama teknolojisi ile yapay zeka arasındaki ilişkinin anlaşılamaması, ikincisi ise arama arka planının bilişinin olumsuz etkiler yaratacağıdır.

Arama şirketleri çoğunlukla Baidu ve Google olduğundan, dış finansmana ihtiyaç duymazlar ve yatırımcılara aramanın ne olduğunu söylemezler. Özellikle, yapay zeka patlamasının son dalgası çoğunlukla görsellerle gerçekleşti ve aramada NLP gibi teknik çağrışımlara kimse aşina değil.

Sonuç olarak Haziran ayında ilk modeli çıkardık. Bir rakip, yatırımcılara en erken Baichuan'ın ilk modeli üretmesinin altı ay süreceğini söyledi.Aslında, onu tamamlamak için yalnızca 1/3 zaman harcadık ve ardından ikincisini piyasaya sürdük. Ve yakın gelecekte kapalı kaynak bir model yayınlayacağız.

Baichuan ilk günden beri kendi kendini geliştirdi ve soğuk başlatma çok çok hızlı. Bunun arkasında yatan sebep ne?

Bugün, yüksek kaliteli verilerin büyük modellerin temeli olduğunu biliyoruz, peki hangi şirket dil verileri konusunda geniş bir anlayışa sahiptir? Aslında arama şirketleri 20 yıldır her gün bu kadar kaliteli veriyi nasıl bulacağımızı düşünerek çalışıyorlar. Örneğin, önce 1 trilyon web sayfasından 100 yüksek kaliteli web sitesi bulun ve ardından bilgi çıkarma, veri tekilleştirme, istenmeyen e-postadan koruma ve hatta içeriği paragraf düzeyinde ayıklama dahil olmak üzere sayfa analizi yapın.

Sogou, Baidu ve Google bu tür işleri uzun süredir yapıyor.

İkinci nokta, yetenek havuzu açısından hem algoritmik yeteneklere hem de arama yeteneklerine odaklanan mühendislik yeteneklerine sahip olmak gerekir, bu tür insanlar temelde şirket arayışındadır. Şimdi ByteDance, modeller yapmak için arama ekibini kullanıyor ve Baidu'nun ilerlemesi de çok hızlı, Shen Xiangyang'ın yaptığı model de geçmişte Bing'in Başkan Yardımcısı tarafından yapıldı.

Büyük bir model yapmak için başka bir şey de değerlendirmedir. Büyük bir modelin iyi olup olmadığını değerlendirmek, akıl yürütme, doğru soru-cevap ve yaratma sorularını içeren aslında sancılı bir problem... Kimi iyileşir, kimi kötüleşir.Nasıl değerlendirilir? Bu nedenle, bu değerlendirme sistemi aynı zamanda, arama şirketlerinin, sonraki algoritmaların yinelemesini yönlendirmek için değerlendirmeyi kullanarak uzun süredir biriktirdiği bir yetenektir.

Ayrıca start-up şirketlerin organizasyonel verimliliği büyük fabrikalarınkinden çok daha yüksektir.Çok esnek bir karar alma sistemi ile tüm verimlilikler maksimuma çıkarılacaktır.

Zhang Peng:

Peki, aramanın büyük modeller için yeterince iyi olmadığını düşünen yatırımcıyla konuştunuz mu?

Wang Xiaochuan:

İsim çarpı ile işaretlenmiş ve kaldırılmış ve kim olduğunu bilmiyorum. Teknolojiye değil sadece işe bakan yatırımcılar ve özellikle küçük taze eti seven ve ABD'den bir iş kurmak için dönen yatırımcılar, bu yatırımcılar bunu sadece ortaya çıkarıyor ve bu konuda konuşmuyorlar.

Yaşlı Wang haklı, "Küçük yenilik büyük fabrikalara, büyük yenilik ise küçük fabrikalara bağlıdır"

Zhang Peng:

Gelecekteki bu teknolojik değişim dalgasında girişimcilerin yeterli fırsatlara sahip olacağını düşünüyor musunuz? Yoksa ana gövde hala devler tarafından mı kontrol ediliyor? Girişimciler kendi fırsatlarını nasıl değerlendirebilirler?

Wang Xiaochuan:

Wang Huiwen teknoloji hakkında pek bir şey bilmese de bence çok doğru bir şey söyledi: küçük inovasyon küçük fabrikalara, büyük inovasyon ise büyük fabrikalara bağlıdır.

Büyük bir fabrikanın insan, para ve kaynak açısından birçok avantajı olmasına rağmen, organizasyon büyüdükten sonra birçok iç problem ortaya çıkar ve organizasyonel verimlilik ciddi şekilde kısıtlanır.

AGI'nin gelişine kesin olarak inanıyorsak, o zaman yeni türlerde büyük bir patlama olacak. Bu şeylerin yeni başlayanların çalışması için büyük fırsatları var. Bu, tarihsel çıkarımlardan gösterilebilir, dolayısıyla AGI olduğu sürece gelecekte yeni fırsatlar olacaktır.

Ortadaki zorluk nerede?

OpenAI, ürünleri gerçek dünyada uygulayan araştırma odaklı bir şirkettir. Onu takip edersiniz ve araştırma alanı çok göz kamaştırıcı başarılara sahip olabilir. Ancak bugün nasıl başvurulursa, ne OpenAI ne de Silikon Vadisi'ndeki teknoloji odaklı şirketler bu konuda pek iyi değil. Uygulamanın uygulanması açısından Çin'in ABD'den çok daha iyi olduğuna eminim.

Tüm dünya bir dönüm noktasına geldi ve artık teknoloji yerine oturduğuna göre bu birinci zorluk. Uygulama ve gereksinimler, model hizmeti (model hizmeti) olarak adlandırılan ikinci zorluktur. Şimdiki zorluk şu ki, bir numaralı model sizde var mı? İkincisi, bir modele sahip olmak, bir hizmete sahip olmak anlamına mı geliyor?

Zhang Peng:

API satmak bir hizmet midir?

Wang Xiaochuan:

Öyle düşünmüyorum.

Sanki sürücüsüz bir teknolojiye sahipsin ama gerçekten bir araba yapabilir misin? Belli ki değil. Aynı zamanda birçok teknolojinin kaynaşmasını gerektirir.

Şimdi ABD, uygulama katmanı konusunda nispeten kafası karışık ve Çin'in şu anki sorunu, model yeteneklerinin olmaması. Günümüzde maket yapan birçok start-up firma da bakış açısını büyük modellerle sınırlıyor ve diğer teknoloji yığınları hakkında pek bir şey bilmiyor.

En basitinden örnek vereyim, maket yaparken halüsinasyonlarla ve güncellikle mutlaka karşılaşırsınız. Hem halüsinasyonlar hem de güncellik, büyük modelin kendisi tarafından çözülebilir. Bazı insanlar parametreleri trilyonlara ve on trilyonlara genişleterek illüzyonu çözer veya takviyeli öğrenmeyi kullanır. Ama aslında, en dolaysız yol, arama ve bilgi erişimini işin içine katmaktır. Büyük modellerin ve bunların kombinasyonu, daha eksiksiz bir teknoloji yığını oluşturabilir.

Bu teknoloji önerildikten sonra, zaten bir miktar işaret olmuştur. Örneğin, aslında esnek bir arama olan ve esas olarak toB'de kullanılan vektör veritabanı denen bir şey vardır.

Arama açısından, Transformer teknolojisi 2018 yılında kullanıma sunulduktan sonra, semantik arama yeteneğine zaten sahiptir. Bu sembolik ağı indeksleyecek olan ters çevrilmiş indeksi duymuş olabilirsiniz.

2018'den sonra biz, Baidu veya byte vektörleri semantik aramaya yöneldi, bu teknolojinin arkasında üç büyük vektör veri tabanı var. Bu teknoloji yığınlarının ve büyük modelin birleşimi, büyük modelin daha da gelişmesini sağlayabilir. Gördüğünüz gibi, arama ekibi deneyimi model oluşturmak için avantajlara sahiptir.

İkinci husus, büyük ölçekli model teknolojisinin giderek pratik hale gelmesidir. Daha sonra, bilgi işlem adı verilen alanda, daha eksiksiz teknolojiler ve ürünler oluşturmak için vektör veritabanları ve aramaların eklenmesi gerekir. Bu konuda, herkes yavaş yavaş bir fikir birliği oluşturuyor.

Bugün ChatGPT'nin trafiğinden bahsetmişken, herkes patlamaya devam edip edemeyeceği konusunda endişelenmeye başladı.

Bu yüzden hala daha fazla keşfe ihtiyacımız var.

Eğlence endüstrisinde rol oynamanın geniş umutları olduğuna inanıyoruz, ancak bu konu daha iyi yapmak için Çinli şirketlerin girişini gerektiriyor.

Başka bir şey de, büyük modellerin ve aramanın nasıl birleştirileceğidir.Perplexity AI şu anda çok iyi gidiyor, ancak pasif bir konumdayız.Amerika Birleşik Devletleri'nin fırsatları varsa, yatırımcılar Çinli karşılaştırma şirketlerini arayacaktır.

Bu şirketin büyük bir modeli yoksa, yalnızca arama API'sı yapıyor; ikincisi, arama teknolojisi yok ve yalnızca Google ve Bing gibi şirketlerin teknolojilerine güvenebiliyor ki bu ideal değil.

Zhang Peng:

Az önce ChatGPT gibi kullanıcıların sayısının azaldığını söylediniz, bu da herkesin yeni paradigmanın bir anda ortadan kalkamayacağını düşünmesine neden oluyor. Bu, girişimcilerin başvuru yapması için büyük bir zorluk mu?

Çünkü az önce söylediğinize göre, olgunlaşmamış teknolojiye sahip bir ortamda girişimci keşfin maliyeti çok yüksek. Ve girişimci, uygulama paradigmasında bir değişiklik olarak başka birinin API'sini kullanırsa, bu özellikle dikkat çekici değildir.

Wang Xiaochuan:

İki gün önce, OpenAI kod yorumlayıcısını yükseltti ve ardından özel talimatı yükseltti. Yeni kurulan şirketler için çok büyük bir baskı var.

Amerikalı yatırımcılar, yeni kurulan şirketlerin endişe içinde devleri geride bırakma şansının olup olmadığı ve işlerini yarı yarıya tamamladıktan sonra yerlerini büyük şirketlere bırakıp bırakmayacağı konusunda da endişeli.

Çin'de OpenAI gibi büyük ölçekli modellerin yolunu tutan bir üst düzey şirket olduğunu sanmıyorum. Henüz "Yüz Model Savaşı" aşamasındadır. Bugün, büyük ölçekli modeller yapan şirketlerin uygulama yapma becerisine sahip olup olmadığı, Çin'in Amerika Birleşik Devletleri üzerinde gözetlemesi gereken çok şey olduğu bir konudur.

GPT-4'ü yakaladınız mı? Nesiller arası iyileştirme modelini körü körüne takip etmek tehlikelidir.

Zhang Peng:

Bu aynı zamanda Çin'de kimin GPT-3.5'i, hatta GPT-4'ü yakalayacağı sorusunu gündeme getiriyor.

GPT-3'ün işletmelerin bazı dikey sahne problemlerini çözmesi için yeterli olduğunu söyleyen başka bir ses daha var.

Xiaochuan ve senin hala GPT-3.5 ve GPT-4'ü kovalamaya kararlı olduğunuzu hissediyorum. Bu kovalamaca süreci zor mu? Neden GPT-4 seviyesini yakalamanız gerektiğini söylüyorsunuz?

Wang Xiaochuan:

Bence iki şey var.

Birincisi, sonraki ürünlerin ekolojisi üzerinde ezici bir etkiye sahip olabilecek, teknolojinin nesiller arası ilerlemesidir. İdeal bir bakış açısından ne olursa olsun, her neslin önemli bir rol oynayabileceği üç, dört, beş nesil savaş uçağı gibi ulaşılması çok uzak bir gelecek hayal edin. Bu nedenle, bu dönemde herkes son derece rekabetçi bir alanda avantaj aramak için çaba göstermelidir.

Ancak, avantajlar için rekabet etme sürecinde herkes yeni bir kafa karışıklığıyla karşılaşabilir: Süper uygulamaları gerçekten hangi nesilde gerçekleştirebiliriz? GPT-3.5, Amerika Birleşik Devletleri'nde henüz bir süper uygulama oluşturmadı ve bir kez eğitilmesi yaklaşık 50 milyon yuan alıyor, buna ön hazırlık ve deneylerin maliyeti dahil değil. GPT-4 eğitimi bir kez 500 milyon RMB'ye mal olabilir. GPT-4.5 nesli ile maliyet 500 milyon dolara ulaşabilir.

Bu nedenle, süper uygulama yoksa, sadece teknolojik iyileştirme peşinde koşmak çok tehlikelidir. Dolayısıyla bu alandaki dördüncü nesil ve beşinci nesil teknik kabiliyetlerin gelişimini aynı anda takip etmemiz ve aynı zamanda süper uygulamalara sahip olmamız gerekiyor. Aksi takdirde, başarılı olmak için her ikisinin de aynı anda yükseltilmesi gereken iki cephede birdenbire yükseltme baskısıyla karşılaşabiliriz.

Zhang Peng:

Bu nedenle teknolojinin her dalga türü değerli uygulamalar üretebilmelidir.

Wang Xiaochuan:

Az önce söylediğin çok doğru.

GPT-3 temelde B tarafında var ama C tarafında olmamasının sebebi bence sürenin çok kısa olması.

Ayrıca herkes OpenAI'ye çok fazla odaklanmış durumda, ne bir ürün firması ne de süper aplikasyonlar yapabilen bir firma.

Süper aplikasyonlar yapabilmek için sadece teknik olarak yetişmek değil, aynı zamanda ürünü yeterince anlamayı da gerektirir. Bence yılın sonu gerçeklerin gün yüzüne çıkacağı zaman.

"Xiaochuan büyük modeller yapmak için uygundur" "20 yıllık aramanın ardından kimse benim arama yapmaya uygun olduğumu söylemedi"

Zhang Peng:

Herkesin OpenAI'yi abartması mümkün mü? Yani veri volanı olduğu için OpenAI'nin önüne geçilmesinin zor olduğunu düşünüyoruz, bunu nasıl anlıyorsunuz, veri volanı gerçekten var mı?

Wang Xiaochuan:

Bu yılın başında data volanından bahsediyordum ve o zamanlar çok paniklemiştim. Kullanıcının isteği kendisine verilir, kullanıcının ne istediğini bilir ve daha sonra modeli daha iyi yükseltebilir.

Şimdiye kadar, bu sorun ciddi değil.

Örneğin, Llama 2'nin piyasaya sürülmesinden sonra, ince ayar aşamasında, verilerin rafine ve daha fazla değil, rafine ve daha az olması gerektiğini herkes gördü.Artık herkes yavaş yavaş teknolojinin sırrının volanda değil, teknolojinin zaman içinde birikmesinde olduğu konusunda bir fikir birliği oluşturdu.

Claude's gibi bir şirket olan Anthropic'in de teknik gücü hızla yükseldi ve OpenAI'nin ondan çok daha fazla kullanıcısı var, bu da veri çarkı kavramının tahrif edildiğini kanıtlıyor.

Zhang Peng:

Ya da belki içindeki gerçekten değerli veriler insanlarla konuşma becerilerine yansımıştır.Hatırlıyorum da ilk zamanlarda konuşma tarzı oldukça "aptalca"ydı ama şimdi daha insani geliyor.

Wang Xiaochuan:

Bu şey pek bir şey gibi gelmiyor ve daha fazlası veri setinde yatıyor.Ön eğitim aşamasında veya ince ayar aşamasında olsun, yüksek kaliteli veri nasıl elde edilir? Nasıl eşleştirilir ve benzeri, bu onun temel yeteneğidir. Özellikle, bir yandan GPT-4'ün 3.5'in daha verimli çalışması için GPT-3.5'i eğittiği ve aynı zamanda GPT-5'in gerektirdiği verilerin bir kısmını üretmek için GPT-4'ün kullanıldığı ve yinelemeli süreci optimize ettiği konusunda sohbet ettiklerini duydum. Dahili olarak yinelenmesi, çevrimiçi hizmetleri daha iyi hale getirmek ve aynı zamanda gelecekte bazı veriler oluşturmaktır.Bence bu dahili bir volan.

Zhang Peng:

Yani Llama açısından bakarsanız teknik seviyesini sürekli geliştiren bir modeli açık kaynak üzerinden teslim etmek de mümkün. Ancak OpenAI açısından bakıldığında, belirli bir aşamada yeterli kullanıcı ve veri olabilir.

Wang Xiaochuan:

Açık kaynak, kapalı kaynak ve uygulamalar, aslında bugün hala herkes onu yayıyor ve tıpkı Batı Amerika Birleşik Devletleri gibi hala genişleme aşamasında.

Zhang Peng:

Dolayısıyla bugün, Baichuan gibi yeni kurulmuş bir şirket için, stratejiyi belirsiz tutmak veya olasılıklar açısından zengin olarak adlandırmak istesem de, yalnızca belirli bir yönde işbirliği yaptığımı söylemek kolay değil, bu boyutlara bahse girebilirim.

Wang Xiaochuan:

Sağ. Bu seferki girişimciliğim oldukça ilginç.Birçok kişi Xiao Chuan'ın özellikle büyük ölçekli modeller yapmak için uygun olduğunu söylüyor.20 yıldır arama yapıyorum ve hiç kimse Xiao Chuan'ın özellikle arama yapmak için uygun olduğunu söylemedi.

Çin'de arama yapmak Baidu'dan 3 yıl sonra, bu şekilde yetişmek çok zor. Bugünün birikimine ve tecrübesine bakılırsa önünde kimse yoktur. Düşünmesi zordu ve birkaç yıl geçti ama bugün bana öyle geliyor ki her yerde fırsatlar var. Bu nedenle, yeterli kapasiteye sahip olduğumuz sürece, burada her yerde röportaj yapabiliriz ve bugün Sogou hakkındaki orijinal izleniminizi değiştirip değiştiremeyeceğimize bakabiliriz.

Körü körüne ibadet etmeyin, Çin ve ABD'nin farklı AI hikayeleri olacak

Zhang Peng:

Ogawa'nın söylediklerinden oldukça etkilendim. Sonunda sahipsiz bir bölgede duruyorsun.

Büyük modelle ilgili olarak, birçok kişi OpenAI'yi öğrenmesi ve yakalaması gerektiğini hissedebilir. Ama bunu gerçekten yaptığınızda, gerçekten mesafeyi ve yolu bulacaksınız.

Wang Xiaochuan:

Evet, bu kadar tapınma.

2016'daki AlphaGo'dan sonra o zamanlar iki noktadan bahsettiğimi hatırlıyorum: Birincisi, (AI) videonun bir sonraki karesini tahmin edebiliyorsa, bu AGI'nin gelişidir.

Ama konuşmayı bitirdikten sonra bitiyor ve bunu yapacak yeteneğiniz yok, motivasyonunuz, yeteneğiniz veya koşullarınız yok. Daha sonra makine dile hakim olursa güçlü yapay zekanın da geleceği söylendi. Şimdi doğrulama fiilen başladı.

Bu yüzden kendimize ait pek çok fikrimiz olduğunu düşünüyorum ve geride değiliz. Sadece zamanlama ve koşullar olgunlaşmamış. Sanki bir okul müdürü bu meselenin çözülebileceğini söyledi, siz okul müdürü, ödevi sizin için kopyalamak istemiyorsunuz, değil mi?

Diğerleri bunun çözülebileceğini söylüyor, hatta size büyük bir fikir veriyor.Bence bunu kendimiz yapabiliriz ve başkalarının ödevlerine bakıp onu kopyalamamıza gerek yok.

Zhang Peng:

Yani buradaki asıl eğlenceniz, başkalarını fark edip yeniden üretmek değil, bu sahipsiz diyarda herkesin yakalayamadığı bazı şeyleri keşfetmek.

Wang Xiaochuan:

Evet, sanırım bu sefer bazı alanlarda liderlik etme fırsatım oluyor.

Zhang Peng:

Böyle bir olasılık var, yani Çin ve Amerika Birleşik Devletleri, Baichuan ve OpenAI, belki de aynı hikaye değil.

Wang Xiaochuan:

Gerçekten farklı olacak. Çin ve Amerika Birleşik Devletleri bir sistem, bir sistem veya bir kültür değildir, bu nedenle ister teknik bir sorun, ister bir uygulama sorunu olsun, sonunda ortaya çıkan şey farklı olacaktır.

Ana iş: iş arkadaşlarıyla sohbet ederken, Baichuan Intelligent az önce 100 kişiyi kırdı

Zhang Peng:

Her zamanki işinizi nasıl düzenlersiniz? Zamanını nasıl ayırıyorsun? Pek çok insan bilgi işlem gücünün ve yeteneklerin önemli olduğunu söylüyor, ancak bence yalnızca gerçekten bir iş kuranlar neyin en önemli olduğunu biliyor. Bu yüzden sadece en çok nerede zaman geçirdiğini sormak istiyorum.

Wang Xiaochuan:

Şimdi zamanımın çoğunu meslektaşlarımızla sohbet ederek geçiriyorum.

Zhang Peng:

sohbet?

Wang Xiaochuan:

Evet, sohbet sürecinde, herkesin aynı beyni oluşturabilmesi için herkesin bilişini, beslenmesini ve dışsal bilgilerini toplamak olan sürekli bir fikir birliği oluşturma sürecidir aslında.

Çünkü biliyoruz ki Yukarıdan Aşağıya doğru yoldan sapılabilir. Örneğin, Google bunu neden yapmadı? İlk Google genel merkezi yapıldığında ataleti vardı. Veriler elde edilemez, çevrimiçi olduktan sonra maliyet artacak ve belirli bir kullanıcı yararı olmayacak, bu nedenle bir iş kurmak için bir ikilem var.

Google Brain söz konusu olduğunda, Düğme Yukarı'dır. Araştırmacıları çok özgür ve ne isterlerse yapabilirler ya da güçlerini birleştirebilirler, pek çoğu aslında büyük modeli görmüşlerdir, ancak bunu yapmaya konsantre olamazlar çünkü güçler dağılmıştır. O zaman Deepmind yukarıdan aşağıya, şirketin ne istediğini ve herkesin ne yaptığını gösterir. AlphaGo, AlphaZero, AlphaFold yaptı ve şimdi hidrojen enerjisine, nükleer füzyona ve kuantum hesaplamaya doğru ilerliyor, ancak çoğundan çok uzakta.

Aslında Yukarıdan Aşağıya ve Düğmeden Yukarıya bugün "aynı istekle yukarı ve aşağı" deniliyor, böylece herkes bu idealden teknolojiye ve bilişe tam olarak hizalansın ve tek bir şey haline gelsin. Bu yüzden sizinle daha fazla günlük iletişimin sizi bir beyin yapacağını düşünüyorum ki bu benim en önemli işim.

Zhang Peng:

Hmm, ilginç. Bu nedenle, küçük bir ekip tüm enerjisini ortaya koyarsa, herkes aynı sevinçleri ve üzüntüleri, aynı arzuları ve arzuları paylaşabilir.

Wang Xiaochuan:

Bu çok önemli, bugün organizasyon ve yönetimden bahsetmeyeceğiz ama tek kişi gibi olacağız. Baichuan'da şu anda 100 kişi var ve daha dün 100 kişiye ulaştı.

Güvende değişiklikler, Baichuan'ın ilerlemesi beklenenden daha hızlı

Zhang Peng:

Son birkaç ayda kendinizi büyük ölçekli modelliğe adadınız, hevesiniz değişmedi ama kendinize olan güveniniz değişti mi? Başlangıçta beklediğinizden daha mı zor? Hâlâ beklentilerinizle uyumlu mu?

Wang Xiaochuan:

Dürüst olmam gerekirse, tüm kalbimle düşündüğümden daha kolay olduğunu düşünüyorum.

Beklenti, başlangıçta çok şey (zorluklar) bilmeniz, yurt dışında yılların birikimi, bilgi işlem gücü, sunucular... Ama iş arkadaşlarınızla birlikte çalıştığınızda, herkes birlikte yaratırken, gerçek ilerlememiz ve hızımız beklenenden daha hızlı oluyor.

  1. Çeyrek'te 50 milyarlık, ardından 4. Çeyrek'te 175 milyarlık bir model çıkarmayı beklediğimiz ortaya çıktı.

Ama aslında bunlar değişmeyecek ama bu süreçte uygulama ilerleme hızı ve açık kaynak modellerin hızı beklenenden çok daha hızlı.

Ve ayrıca daha hızlı, bugün sadece kendi içimizde değil, uluslararası sahnede de açık kaynak olmak için söylemeye başlayabiliriz.

Açık kaynak çok basit, herkes kendi kullanımı için kullanabilir, bu övünülecek bir şey değil. Açılıştan sonra uluslararası arenada çok iyi bir konuma gelebileceğimizden eminiz.

Zhang Peng:

Bu yüzden suya atlamadan önce, derinliği bilmeme konusunda endişeliydim, ama gerçekten atladığımda, gerçekten dibe basabileceğimi fark ettim, bu yüzden çok daha rahat hissettim? Gerçekten bu kadar basit mi?

Wang Xiaochuan:

İnsanları böl.

Ben nispeten temkinli bir insanım, hala izliyordum ve sonra Lianchuang'ımız beni tekmeledi ve yapmaya başlamamı söyledi. Sonra tamam dedim, bittiğini duyurdum ve çalışmaya başladım. Aksi takdirde kendinizi hazır hissetmeniz daha da geç olabilir. Ancak sahadan indiğinizde düşündüğünüzden daha hızlı koşacağınızı göreceksiniz.

Çılgınlığın ardından, endişe verici son teknolojik gelişmeler

Zhang Peng:

Son zamanlarda büyük modellerin teknik ilerlemesine dikkat ediyor musunuz? Hangi gazeteler sizi heyecanlandırıyor?

Wang Xiaochuan:

İlk olarak, sadece makale okumak aslında bugün önemli değil. Bitiremezsin.

Temel şeyler bunlar. Ve bugün OpenAI iyi makaleler göndermeyi bıraktı. Gönderilen kağıtların tamamı az miktarda bilgi içeren kağıtlardır ve hasadı sınırlıdır.

Aynı zamanda herkes daha önce bir cinnet (durum) içerisine girdiği için “yıl gibi günü yaşamak” diyoruz ve her gün (teknolojik ilerleme) bir yıl gibi geliyor.

Zhang Peng:

Günler, hızlı aktığı için yıllar gibi gelir.

Wang Xiaochuan:

Evet, sıkıcı değil. Her gün pek çok yeni şey var. Herkesin sinirleri yüksek bir noktaya uyarıldı ve biraz zayıflar.

Bunu söyledikten sonra, son zamanlarda çok güçlü olduğunu düşündüğüm birkaç teknolojik gelişme oldu.

Birincisi, yaklaşık bir hafta önce OpenAI, büyük bir atılım olan kod yorumlayıcısını başlattı, ancak Çin'de yeni bir medya çılgınlığı yok gibi görünüyor.

Daha önce herkes çılgınlığın tadını çıkarmıştı ama bu sefer ilerleme, kod yorumlayıcı, sanırım medya yeterince ilgi göstermedi ve haber yaptı.

Ve dün küçük bir yükseltme, kendi talimatınızı özelleştirin.

Model LLM'den Aracılara başladığını temsil eder.

"Ben kimim ve özelliklerim neler?" Büyük modeliniz nasıl bir rol oynayacak ve özellikleri neler olacak? Böyle bir ilişkinin oluşturulması, modelin Aracı olup olmamasına (bakış açısından) bağlıdır.

Bu iki alan bugün herkesin dikkat etmesi ve rapor etmesi için yeterli değil.

Bir iş kurma kararı nihayet "Xiochuan'a uygun" sahipsiz araziye kadar beklendi

Zhang Peng:

Son soru, az önce bu girişimcilik durumuna "atıldığınızdan" bahsettiniz. AlphaGo zamanından beri yapay zeka fanatiği olduğunuzu da biliyorum.

Sonunda, AGI ve büyük ölçekli modeller alanında girişimci olmaya karar verdiniz.Lao Wang (Huiwen) veya Çin'deki dalga olsun, karar verme sürecinizi nasıl etkilediler? Böyle bir süreçten geçtikten sonra kalbinizde ne gibi değişiklikler oldu?

Wang Xiaochuan:

Zihinsel yolculuk aslında oldukça uzundur.

Sogou zamanında, sonraki aşamaya kadar. İlk olarak öneri motorunu kaçırdık ve Tencent ile stratejik bir ittifak kurduk, bu durumda yeni teknolojik atılımlar olmadan geliştirme çok sınırlı. Sogou, Tencent ile birleştiğinde, hayatı matematiksel bir modele dönüştürmek olan daha ilginç bir şeye meydan okuyordum. Söylediğimiz gibi, Newton fiziği matematiksel bir modele dönüştürüyordu.

Daha önce Geek Park platformunda hayattan öğrenmekten bahsediyordum.

hayat nedir Bu 20 yıldır düşündüğüm bir şey.

Hayatı nasıl matematiksel bir modele dönüştürebiliriz? Benim umursadığım bu. Çin tıbbı çalışmasında bile, hayatın nasıl matematiksel bir modele dönüştürüleceği (daha sonra) bu yolun düzgün olmayabileceğini keşfetti.

Bilimsel paradigma içinde tıpta yeni atılımların nasıl yapılacağıyla özellikle ilgileniyorum. Bilgisayar makaleleri okuduğumdan çok daha fazla tıbbi makale okudum, binlerce tıbbi makale okudum.

21 yılda ne oldu? 21 yılda büyük model bazı fırsatlara sahip olmaya başladı. O zamanlar, aramayı soru cevap olarak değiştirme sorununu çözmek için on milyarlarca model yaptık.

Aslında, giriş yöntemini yapmadan önce, "bir sonraki kelimenin ne söylemek istediğini tahmin etme" ile meşguldüm ve ardından onu nasıl yeniden yazacağım, arama bir soru-cevaba dönüştü. Aslında kapıya dokunuldu ama o zamanlar teknolojide bir atılım yoktu.

Yani biliyorsunuz hayatı matematiksel bir modele dönüştürmekle çok ilgileniyorum, bu yüzden büyük modelin gelmesinden sonra ilk düşüncem büyük bir model yapmak değil, sormak istiyorum, bugün yaşam alanında bir Sağlık ChatGPT inşa etmek mümkün mü? Sağlıklı GPT, dijital bir doktor mu?

Zhang Peng:

Uygulamalı, problem çözme perspektifinden düşünüyorsunuz.

Wang Xiaochuan:

Evet, düşünüyorum. Sonra düşündüm ki, bugün dikey bir model yaparsanız, büyük model onu öldürür. Genel zeka, özel zekayı öldürür, değil mi?

Ancak bu durumda, yalnızca bir tür HealthGPT veya yalnızca bir dijital doktor yapmanın yeterli olmadığını gördük.

Sonunda, yine de büyük bir model yapmak gerekiyor.

(Bir sonraki aşamada büyük ölçekli bir model yapma kararı) daha önce biriktirdiğimi düşündüğüm için değil, böyle bir çevreden geldi.

Ancak büyük bir model oluşturduğumuzda, (önceki birikimin) dille ilgili işleme gibi oldukça ilgili olduğunu görüyoruz.

En uç noktalarda bile, ChatGPT, dil modelini süper bir uygulama haline getiren üçüncü kişidir. İlk iki, bir arama ve bir giriş yöntemi.

Zhang Peng:

Bunu da yapmamışsın gibi hissediyorum, daha önce yaptığın ikisi için üzgünüm.

Wang Xiaochuan:

Evet, bu yüzden önceki birikimin bugün gerçekten yararlı olduğunu gördüm ki daha önce beklemiyordum.

Bu yüzden çok duygulandım, Tanrı size karşı çok nazik ve size bir şans verdi. Aramanın sonunda, daha önce yapılamayan bir şeyi yapmak için önceki deneyimi kullanmak için bir şans daha var.

Şimdi kimse "Xiaochuan arama için uygun" demedi ama herkes "Baichuan büyük ölçekli modeller için uygun" dedi.Benim için bu çok şanslı bir şey.

Zhang Peng:

Bu yüzden ilk etapta yapmaya karar verdin.

Birkaç ay sonra herkes bunu zor bulabilir OpenAI henüz süper karlı bir şirket haline gelmedi ve Silikon Vadisi'ndeki birçok kişi onun iş modelini sorguladı. Yani büyük model bu yönüyle girişimcilerin üzerinde baskı oluşturacak, bu baskıyı hissettiniz mi?

Wang Xiaochuan:

Tamamen hiperim.

Çünkü eskiden Baidu'nun gölgesinde çalışıyordum ama artık burası kimsenin olmadığı bir yer.Benim için tam da bunu yapmak istiyorum, önümde bir lider var, sonra siz onu takip edin demek yerine. Benim için sevdiğim şey bu, yeni bir keşif.

Zhang Peng:

Bugün bizimle paylaştığı için Xiaochuan'a özel teşekkürler ve nihayet sahipsiz topraklarınıza adım attığınız için tebrikler. Burada daha güzel manzaralar görmeyi umuyorum. Alkışlar Xiaochuan'a adanmıştır, hadi!

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Repost
  • Share
Comment
0/400
No comments
  • Pin
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)