Prestasi baru "kecerdasan yang terkandung" dari Li Feifei! Robot terhubung ke model besar dan langsung memahami ucapan manusia, dan dapat menyelesaikan instruksi kompleks tanpa pra-pelatihan
Pencapaian terbaru tim Li Feifei kecerdasan yang diwujudkan ada di sini:
Model besar terhubung ke robot untuk mengubah instruksi rumit menjadi rencana tindakan khusus tanpa data dan pelatihan tambahan.
Sejak saat itu, manusia dapat dengan bebas menggunakan bahasa alami untuk memberikan instruksi kepada robot, seperti:
Buka laci atas dan hati-hati dengan vasnya!
Model bahasa besar + model bahasa visual dapat menganalisis target dan rintangan yang perlu dilewati dari ruang 3D, membantu robot membuat perencanaan tindakan.
Kemudian poin utamanya adalah robot di dunia nyata dapat langsung melakukan tugas ini tanpa "pelatihan".
Metode baru ini mewujudkan sintesis lintasan tugas operasi harian sampel nol, yaitu tugas yang belum pernah dilihat robot sebelumnya dapat dilakukan pada satu waktu, bahkan tanpa memberinya demonstrasi.
Objek yang dapat dioperasikan juga terbuka. Anda tidak perlu menggambarkan jangkauan terlebih dahulu. Anda dapat membuka botol, menekan sakelar, dan mencabut kabel pengisi daya.
Saat ini, beranda dan makalah proyek sedang online, dan kodenya akan segera dirilis, dan telah membangkitkan minat yang luas di komunitas akademik.
Seorang mantan peneliti Microsoft berkomentar: Penelitian ini berada pada batas paling penting dan kompleks dari sistem kecerdasan buatan.
Khusus untuk komunitas riset robot, beberapa rekan mengatakan telah membuka dunia baru untuk bidang perencanaan gerak.
Ada juga orang yang tidak melihat bahaya AI, tetapi karena penelitian tentang AI yang dikombinasikan dengan robot ini, mereka mengubah pandangan mereka.
**Bagaimana robot dapat memahami ucapan manusia secara langsung? **
Tim Li Feifei menamai sistem VoxPoser, seperti yang ditunjukkan pada gambar di bawah, prinsipnya sangat sederhana.
Pertama, mengingat informasi lingkungan (mengumpulkan gambar RGB-D dengan kamera) dan instruksi bahasa alami yang ingin kami jalankan.
Kemudian, LLM (Large Language Model) menulis kode berdasarkan konten ini, dan kode yang dihasilkan berinteraksi dengan VLM (Model Bahasa Visual) untuk memandu sistem menghasilkan peta instruksi operasi yang sesuai, yaitu Peta Nilai 3D.
Yang disebut 3D Value Map, yang merupakan istilah umum untuk Affordance Map dan Constraint Map, menandai "di mana harus bertindak" dan "bagaimana bertindak"**.
Dengan cara ini, perencana tindakan dipindahkan, dan peta 3D yang dihasilkan digunakan sebagai fungsi tujuannya untuk mensintesis lintasan operasi akhir yang akan dieksekusi.
Dari proses ini, kita dapat melihat bahwa dibandingkan dengan metode tradisional, diperlukan pra-pelatihan tambahan.Metode ini menggunakan model besar untuk memandu robot bagaimana berinteraksi dengan lingkungan, sehingga secara langsung memecahkan masalah kelangkaan data pelatihan robot. .
Selain itu, justru karena fitur inilah ia juga mewujudkan kemampuan sampel nol. Selama proses dasar di atas dikuasai, tugas apa pun yang diberikan dapat dilakukan.
Dalam implementasi khusus, penulis mengubah ide VoxPoser menjadi masalah optimisasi, yaitu rumus kompleks berikut:
Mengingat bahwa instruksi yang dikeluarkan oleh manusia mungkin memiliki jangkauan yang luas dan memerlukan pemahaman kontekstual, maka instruksi tersebut dibongkar menjadi banyak subtugas.Misalnya, contoh pertama di awal terdiri dari "ambil pegangan laci" dan "buka laci".
Apa yang ingin dicapai VoxPoser adalah mengoptimalkan setiap subtugas, mendapatkan serangkaian lintasan robot, dan terakhir meminimalkan total beban kerja dan waktu kerja.
Dalam proses menggunakan LLM dan VLM untuk memetakan instruksi bahasa ke dalam peta 3D, sistem menganggap bahwa bahasa dapat menyampaikan ruang semantik yang kaya, sehingga sistem menggunakan "entitas minat(entitas minat)" untuk memandu robot ke beroperasi , yaitu, melalui nilai yang ditandai di 3DValue Map untuk mencerminkan objek mana yang "menarik" untuknya, dan objek tersebut "menjijikkan".
Masih menggunakan contoh di awal 🌰, lacinya "menarik", dan vasnya "menolak".
Tentu saja, bagaimana menghasilkan nilai-nilai ini tergantung pada kemampuan pemahaman model bahasa yang besar.
Dalam proses sintesis lintasan terakhir, karena keluaran model bahasa tetap konstan selama tugas berlangsung, kami dapat dengan cepat menilai ulang saat menghadapi gangguan dengan menyimpan keluarannya dan mengevaluasi ulang kode yang dihasilkan menggunakan umpan balik visual loop tertutup.
Oleh karena itu, VoxPoser memiliki kemampuan anti-interferensi yang kuat.
△ Masukkan kertas bekas ke dalam baki biru
Berikut ini adalah kinerja VoxPoser di lingkungan nyata dan simulasi (diukur dengan tingkat keberhasilan rata-rata):
Dapat dilihat bahwa ini jauh lebih tinggi daripada tugas dasar berbasis primitif terlepas dari lingkungannya (dengan atau tanpa gangguan, apakah instruksi terlihat atau tidak).
Akhirnya, penulis sangat terkejut saat mengetahui bahwa VoxPoser menghasilkan 4 "kemampuan yang muncul":
(1) Evaluasi karakteristik fisik, seperti diberikan dua balok yang massanya tidak diketahui, biarkan robot menggunakan alat untuk melakukan percobaan fisik untuk menentukan balok mana yang lebih berat;
(2) Penalaran akal sehat perilaku, seperti dalam tugas mengatur peralatan makan, memberi tahu robot "Saya kidal", dan dapat memahami makna melalui konteks;
(3) Koreksi berbutir halus Misalnya, saat melakukan tugas yang membutuhkan ketelitian tinggi seperti "menutupi teko", kami dapat memberikan instruksi yang tepat kepada robot seperti "Anda menyimpang 1 cm" untuk memperbaiki operasinya;
(4) Operasi multi-langkah berdasarkan penglihatan, seperti meminta robot untuk membuka laci secara akurat menjadi dua.Kurangnya informasi karena kurangnya model objek dapat mencegah robot melakukan tugas seperti itu, tetapi VoxPoser dapat mengusulkan strategi operasi multi-langkah berdasarkan umpan balik visual. Artinya, pertama-tama buka laci sepenuhnya sambil merekam perpindahan pegangan, lalu dorong kembali ke titik tengah untuk memenuhi persyaratan.
Fei-Fei Li: 3 Bintang Utara Computer Vision
Sekitar setahun yang lalu, Li Feifei menulis sebuah artikel di Journal of American Academy of Arts and Sciences, menunjukkan tiga arah pengembangan visi komputer:
AI yang diwujudkan
Penalaran Visual
Pemahaman Adegan
Li Feifei percaya bahwa kecerdasan yang diwujudkan tidak hanya merujuk pada robot humanoid, tetapi mesin cerdas berwujud apa pun yang dapat bergerak di luar angkasa adalah salah satu bentuk kecerdasan buatan.
Sama seperti ImageNet yang bertujuan untuk mewakili berbagai macam gambar dunia nyata, penelitian kecerdasan yang diwujudkan perlu menangani tugas manusia yang kompleks dan beragam, mulai dari melipat cucian hingga menjelajahi kota-kota baru.
Mengikuti instruksi untuk melakukan tugas-tugas ini membutuhkan penglihatan, tetapi tidak hanya penglihatan, tetapi juga penalaran visual untuk memahami hubungan tiga dimensi di tempat kejadian.
Terakhir, mesin harus memahami orang-orang di tempat kejadian, termasuk niat manusia dan hubungan sosial. Misalnya, melihat seseorang membuka kulkas dapat menunjukkan bahwa dia lapar, atau melihat seorang anak duduk di pangkuan orang dewasa dapat menunjukkan bahwa mereka adalah orang tua-anak.
Robot yang dipadukan dengan model besar mungkin hanya salah satu cara untuk mengatasi masalah tersebut.
Selain Li Feifei, alumnus Tsinghua Yaoban Wu Jiajun, yang lulus dari MIT dengan gelar Ph.D. dan kini menjadi asisten profesor di Stanford University, turut berpartisipasi dalam penelitian ini.
Penulis pertama tesis ini, Wenlong Huang, kini menjadi mahasiswa doktoral di Stanford dan berpartisipasi dalam penelitian PaLM-E selama magang di Google.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Prestasi baru "kecerdasan yang terkandung" dari Li Feifei! Robot terhubung ke model besar dan langsung memahami ucapan manusia, dan dapat menyelesaikan instruksi kompleks tanpa pra-pelatihan
Sumber: Qubit
Pencapaian terbaru tim Li Feifei kecerdasan yang diwujudkan ada di sini:
Model besar terhubung ke robot untuk mengubah instruksi rumit menjadi rencana tindakan khusus tanpa data dan pelatihan tambahan.
Objek yang dapat dioperasikan juga terbuka. Anda tidak perlu menggambarkan jangkauan terlebih dahulu. Anda dapat membuka botol, menekan sakelar, dan mencabut kabel pengisi daya.
**Bagaimana robot dapat memahami ucapan manusia secara langsung? **
Tim Li Feifei menamai sistem VoxPoser, seperti yang ditunjukkan pada gambar di bawah, prinsipnya sangat sederhana.
Kemudian, LLM (Large Language Model) menulis kode berdasarkan konten ini, dan kode yang dihasilkan berinteraksi dengan VLM (Model Bahasa Visual) untuk memandu sistem menghasilkan peta instruksi operasi yang sesuai, yaitu Peta Nilai 3D.
Dari proses ini, kita dapat melihat bahwa dibandingkan dengan metode tradisional, diperlukan pra-pelatihan tambahan.Metode ini menggunakan model besar untuk memandu robot bagaimana berinteraksi dengan lingkungan, sehingga secara langsung memecahkan masalah kelangkaan data pelatihan robot. .
Selain itu, justru karena fitur inilah ia juga mewujudkan kemampuan sampel nol. Selama proses dasar di atas dikuasai, tugas apa pun yang diberikan dapat dilakukan.
Dalam implementasi khusus, penulis mengubah ide VoxPoser menjadi masalah optimisasi, yaitu rumus kompleks berikut:
Apa yang ingin dicapai VoxPoser adalah mengoptimalkan setiap subtugas, mendapatkan serangkaian lintasan robot, dan terakhir meminimalkan total beban kerja dan waktu kerja.
Dalam proses menggunakan LLM dan VLM untuk memetakan instruksi bahasa ke dalam peta 3D, sistem menganggap bahwa bahasa dapat menyampaikan ruang semantik yang kaya, sehingga sistem menggunakan "entitas minat(entitas minat)" untuk memandu robot ke beroperasi , yaitu, melalui nilai yang ditandai di 3DValue Map untuk mencerminkan objek mana yang "menarik" untuknya, dan objek tersebut "menjijikkan".
Tentu saja, bagaimana menghasilkan nilai-nilai ini tergantung pada kemampuan pemahaman model bahasa yang besar.
Dalam proses sintesis lintasan terakhir, karena keluaran model bahasa tetap konstan selama tugas berlangsung, kami dapat dengan cepat menilai ulang saat menghadapi gangguan dengan menyimpan keluarannya dan mengevaluasi ulang kode yang dihasilkan menggunakan umpan balik visual loop tertutup.
Oleh karena itu, VoxPoser memiliki kemampuan anti-interferensi yang kuat.
Berikut ini adalah kinerja VoxPoser di lingkungan nyata dan simulasi (diukur dengan tingkat keberhasilan rata-rata):
Akhirnya, penulis sangat terkejut saat mengetahui bahwa VoxPoser menghasilkan 4 "kemampuan yang muncul":
(1) Evaluasi karakteristik fisik, seperti diberikan dua balok yang massanya tidak diketahui, biarkan robot menggunakan alat untuk melakukan percobaan fisik untuk menentukan balok mana yang lebih berat;
(2) Penalaran akal sehat perilaku, seperti dalam tugas mengatur peralatan makan, memberi tahu robot "Saya kidal", dan dapat memahami makna melalui konteks;
(3) Koreksi berbutir halus Misalnya, saat melakukan tugas yang membutuhkan ketelitian tinggi seperti "menutupi teko", kami dapat memberikan instruksi yang tepat kepada robot seperti "Anda menyimpang 1 cm" untuk memperbaiki operasinya;
(4) Operasi multi-langkah berdasarkan penglihatan, seperti meminta robot untuk membuka laci secara akurat menjadi dua.Kurangnya informasi karena kurangnya model objek dapat mencegah robot melakukan tugas seperti itu, tetapi VoxPoser dapat mengusulkan strategi operasi multi-langkah berdasarkan umpan balik visual. Artinya, pertama-tama buka laci sepenuhnya sambil merekam perpindahan pegangan, lalu dorong kembali ke titik tengah untuk memenuhi persyaratan.
Fei-Fei Li: 3 Bintang Utara Computer Vision
Sekitar setahun yang lalu, Li Feifei menulis sebuah artikel di Journal of American Academy of Arts and Sciences, menunjukkan tiga arah pengembangan visi komputer:
Sama seperti ImageNet yang bertujuan untuk mewakili berbagai macam gambar dunia nyata, penelitian kecerdasan yang diwujudkan perlu menangani tugas manusia yang kompleks dan beragam, mulai dari melipat cucian hingga menjelajahi kota-kota baru.
Mengikuti instruksi untuk melakukan tugas-tugas ini membutuhkan penglihatan, tetapi tidak hanya penglihatan, tetapi juga penalaran visual untuk memahami hubungan tiga dimensi di tempat kejadian.
Terakhir, mesin harus memahami orang-orang di tempat kejadian, termasuk niat manusia dan hubungan sosial. Misalnya, melihat seseorang membuka kulkas dapat menunjukkan bahwa dia lapar, atau melihat seorang anak duduk di pangkuan orang dewasa dapat menunjukkan bahwa mereka adalah orang tua-anak.
Robot yang dipadukan dengan model besar mungkin hanya salah satu cara untuk mengatasi masalah tersebut.