Thành tựu mới "trí thông minh thể hiện" của Li Feifei! Robot kết nối với mô hình lớn và hiểu trực tiếp lời nói của con người, đồng thời có thể hoàn thành các hướng dẫn phức tạp mà không cần đào tạo trước
Những thành tựu mới nhất của nhóm Li Feifei trí thông minh thể hiện là ở đây:
Mô hình lớn được kết nối với robot để chuyển đổi các hướng dẫn phức tạp thành các kế hoạch hành động cụ thể mà không cần thêm dữ liệu và đào tạo.
Từ đó, con người có thể thoải mái sử dụng ngôn ngữ tự nhiên để đưa ra các chỉ dẫn cho robot, chẳng hạn như:
Mở ngăn kéo trên cùng và coi chừng những chiếc bình!
Mô hình ngôn ngữ lớn + mô hình ngôn ngữ hình ảnh có thể phân tích mục tiêu và chướng ngại vật cần vượt qua từ không gian 3D, giúp robot lập kế hoạch hành động.
Sau đó, điểm mấu chốt là robot trong thế giới thực có thể trực tiếp thực hiện nhiệm vụ này mà không cần "đào tạo".
Phương pháp mới thực hiện tổng hợp quỹ đạo nhiệm vụ hoạt động hàng ngày không lấy mẫu, tức là các nhiệm vụ mà rô-bốt chưa từng thấy trước đây có thể được thực hiện cùng một lúc mà không cần trình diễn.
Đối tượng có thể thao tác cũng được mở, không cần khoanh vùng trước phạm vi, có thể mở bình, ấn công tắc, rút cáp sạc.
Hiện tại, trang chủ của dự án và các bài báo đang trực tuyến, mã sẽ sớm được phát hành và đã thu hút sự quan tâm rộng rãi trong cộng đồng học thuật.
Một cựu nhà nghiên cứu của Microsoft đã nhận xét: Nghiên cứu này đang ở ranh giới quan trọng và phức tạp nhất của hệ thống trí tuệ nhân tạo.
Riêng với cộng đồng nghiên cứu robot, một số đồng nghiệp cho rằng nó đã mở ra một thế giới mới cho lĩnh vực lập kế hoạch chuyển động.
Cũng có người không nhìn thấy sự nguy hiểm của AI, nhưng vì nghiên cứu về AI kết hợp với robot này, họ đã thay đổi quan điểm.
**Làm thế nào để robot có thể hiểu trực tiếp lời nói của con người? **
Nhóm của Li Feifei đặt tên cho hệ thống là VoxPoser, như thể hiện trong hình bên dưới, nguyên tắc của nó rất đơn giản.
Đầu tiên, cung cấp thông tin môi trường (thu thập hình ảnh RGB-D bằng máy ảnh) và hướng dẫn ngôn ngữ tự nhiên mà chúng tôi muốn thực hiện.
Sau đó, LLM (Mô hình ngôn ngữ lớn) viết mã dựa trên những nội dung này và mã được tạo sẽ tương tác với VLM (Mô hình ngôn ngữ trực quan) để hướng dẫn hệ thống tạo bản đồ hướng dẫn hoạt động tương ứng, cụ thể là Bản đồ giá trị 3D.
Cái gọi là Bản đồ giá trị 3D, là thuật ngữ chung cho Bản đồ khả năng chi trả và Bản đồ ràng buộc, đánh dấu cả "nơi hành động" và "hành động như thế nào"**.
Theo cách này, công cụ lập kế hoạch hành động được chuyển ra ngoài và bản đồ 3D đã tạo được sử dụng làm chức năng mục tiêu của nó để tổng hợp quỹ đạo hoạt động cuối cùng sẽ được thực hiện.
Từ quá trình này, chúng ta có thể thấy rằng so với phương pháp truyền thống, cần phải đào tạo thêm trước, phương pháp này sử dụng một mô hình lớn để hướng dẫn robot cách tương tác với môi trường, vì vậy nó trực tiếp giải quyết vấn đề khan hiếm dữ liệu đào tạo robot .
Hơn nữa, chính nhờ tính năng này mà nó cũng nhận ra khả năng lấy mẫu bằng 0. Miễn là bạn nắm vững quy trình cơ bản ở trên, thì bất kỳ nhiệm vụ nào cũng có thể được thực hiện.
Trong phần triển khai cụ thể, tác giả đã biến ý tưởng của VoxPoser thành một bài toán tối ưu hóa, tức là công thức phức tạp sau:
Có tính đến việc các hướng dẫn do con người đưa ra có thể có phạm vi rộng và yêu cầu hiểu theo ngữ cảnh, vì vậy các hướng dẫn được phân tách thành nhiều nhiệm vụ phụ. Ví dụ: ví dụ đầu tiên ở phần đầu bao gồm "nắm lấy tay cầm ngăn kéo" và "kéo cái ngăn kéo".
Điều mà VoxPoser muốn đạt được là tối ưu hóa từng nhiệm vụ phụ, thu được một loạt quỹ đạo của robot và cuối cùng là giảm thiểu tổng khối lượng công việc và thời gian làm việc.
Trong quá trình sử dụng LLM và VLM để ánh xạ các hướng dẫn ngôn ngữ thành bản đồ 3D, hệ thống cho rằng ngôn ngữ có thể truyền tải một không gian ngữ nghĩa phong phú, vì vậy nó sử dụng "entity of interest(entity of interest)" để hướng dẫn robot hoạt động , tức là thông qua giá trị được đánh dấu trong Bản đồ 3DValue để phản ánh đối tượng nào “hấp dẫn” nó, còn những đối tượng đó “ghê tởm”.
Vẫn lấy ví dụ ở đầu 🌰, ngăn kéo thì "thu hút", còn chiếc bình thì "đẩy lùi".
Tất nhiên, làm thế nào để tạo ra các giá trị này phụ thuộc vào khả năng hiểu mô hình ngôn ngữ lớn.
Trong quy trình tổng hợp quỹ đạo cuối cùng, do đầu ra của mô hình ngôn ngữ không đổi trong suốt tác vụ, nên chúng tôi có thể nhanh chóng đánh giá lại khi gặp nhiễu bằng cách lưu vào bộ đệm đầu ra của nó và đánh giá lại mã được tạo bằng cách sử dụng phản hồi trực quan vòng kín.
Do đó, VoxPoser có khả năng chống nhiễu mạnh.
△ Đặt giấy vụn vào khay màu xanh
Sau đây là hiệu suất của VoxPoser trong môi trường thực và mô phỏng (được đo bằng tỷ lệ thành công trung bình):
Có thể thấy rằng nó cao hơn đáng kể so với tác vụ cơ bản dựa trên nguyên thủy bất kể môi trường (có hoặc không có bộ phân tâm, cho dù hướng dẫn có hiển thị hay không).
Cuối cùng, tác giả đã rất ngạc nhiên khi thấy rằng VoxPoser đã tạo ra 4 "khả năng mới nổi":
(1) Đánh giá các đặc tính vật lý, chẳng hạn như cho trước hai khối chưa biết khối lượng, cho robot sử dụng các công cụ để tiến hành thí nghiệm vật lý xem khối nào nặng hơn;
(2) Lập luận thông thường về hành vi, chẳng hạn như trong nhiệm vụ sắp đặt bộ đồ ăn, hãy nói với robot "Tôi thuận tay trái" và nó có thể hiểu ý nghĩa thông qua ngữ cảnh;
(3) Tinh chỉnh chi tiết, chẳng hạn khi thực hiện các thao tác cần độ chính xác cao như “đắp ấm trà”, chúng ta có thể ra lệnh chính xác cho robot như “bạn sai 1 cm” để điều chỉnh hoạt động của nó;
(4) Hoạt động nhiều bước dựa trên tầm nhìn, chẳng hạn như yêu cầu robot mở chính xác một nửa ngăn kéo. Việc thiếu thông tin do thiếu mô hình đối tượng có thể khiến robot không thể thực hiện nhiệm vụ đó, nhưng VoxPoser có thể đề xuất một chiến lược hoạt động nhiều bước dựa trên phản hồi trực quan, nghĩa là trước tiên hãy mở hoàn toàn ngăn kéo trong khi ghi lại sự dịch chuyển của tay cầm, sau đó đẩy nó trở lại điểm giữa để đáp ứng yêu cầu.
Fei-Fei Li: 3 ngôi sao phương Bắc của thị giác máy tính
Khoảng một năm trước, Li Feifei đã viết một bài báo trên Tạp chí của Viện Hàn lâm Khoa học và Nghệ thuật Hoa Kỳ, chỉ ra ba hướng phát triển thị giác máy tính:
Hiện thân của AI
Lý luận trực quan
Cảnh hiểu
Li Feifei tin rằng trí thông minh hiện thân không chỉ đề cập đến người máy hình người, mà bất kỳ cỗ máy thông minh hữu hình nào có thể di chuyển trong không gian đều là một dạng trí tuệ nhân tạo.
Giống như ImageNet nhằm mục đích đại diện cho nhiều hình ảnh trong thế giới thực, do đó, nghiên cứu trí thông minh được thể hiện cần giải quyết các nhiệm vụ phức tạp và đa dạng của con người, từ gấp quần áo đến khám phá các thành phố mới.
Làm theo hướng dẫn để thực hiện các tác vụ này đòi hỏi tầm nhìn, nhưng không chỉ tầm nhìn mà còn cả lý luận trực quan để hiểu các mối quan hệ ba chiều trong cảnh.
Cuối cùng, cỗ máy phải hiểu được con người trong hiện trường, bao gồm ý định của con người và các mối quan hệ xã hội. Ví dụ, nhìn thấy một người mở tủ lạnh có thể biết rằng anh ta đang đói, hoặc nhìn thấy một đứa trẻ ngồi trong lòng người lớn có thể biết rằng họ là cha-con.
Robot kết hợp với các mô hình lớn có thể chỉ là một cách để giải quyết những vấn đề này.
Ngoài Li Feifei, cựu sinh viên Tsinghua Yaoban Wu Jiajun, người tốt nghiệp MIT với bằng Tiến sĩ và hiện là trợ lý giáo sư tại Đại học Stanford, đã tham gia vào nghiên cứu này.
Tác giả đầu tiên của luận án, Wenlong Huang, hiện là nghiên cứu sinh tiến sĩ tại Stanford và đã tham gia nghiên cứu PaLM-E trong thời gian thực tập tại Google.
Địa chỉ giấy tờ:
Trang chủ dự án:
Liên kết tham khảo:
[1]
[1]
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Thành tựu mới "trí thông minh thể hiện" của Li Feifei! Robot kết nối với mô hình lớn và hiểu trực tiếp lời nói của con người, đồng thời có thể hoàn thành các hướng dẫn phức tạp mà không cần đào tạo trước
Nguồn: Qubit
Những thành tựu mới nhất của nhóm Li Feifei trí thông minh thể hiện là ở đây:
Mô hình lớn được kết nối với robot để chuyển đổi các hướng dẫn phức tạp thành các kế hoạch hành động cụ thể mà không cần thêm dữ liệu và đào tạo.
Đối tượng có thể thao tác cũng được mở, không cần khoanh vùng trước phạm vi, có thể mở bình, ấn công tắc, rút cáp sạc.
**Làm thế nào để robot có thể hiểu trực tiếp lời nói của con người? **
Nhóm của Li Feifei đặt tên cho hệ thống là VoxPoser, như thể hiện trong hình bên dưới, nguyên tắc của nó rất đơn giản.
Sau đó, LLM (Mô hình ngôn ngữ lớn) viết mã dựa trên những nội dung này và mã được tạo sẽ tương tác với VLM (Mô hình ngôn ngữ trực quan) để hướng dẫn hệ thống tạo bản đồ hướng dẫn hoạt động tương ứng, cụ thể là Bản đồ giá trị 3D.
Từ quá trình này, chúng ta có thể thấy rằng so với phương pháp truyền thống, cần phải đào tạo thêm trước, phương pháp này sử dụng một mô hình lớn để hướng dẫn robot cách tương tác với môi trường, vì vậy nó trực tiếp giải quyết vấn đề khan hiếm dữ liệu đào tạo robot .
Hơn nữa, chính nhờ tính năng này mà nó cũng nhận ra khả năng lấy mẫu bằng 0. Miễn là bạn nắm vững quy trình cơ bản ở trên, thì bất kỳ nhiệm vụ nào cũng có thể được thực hiện.
Trong phần triển khai cụ thể, tác giả đã biến ý tưởng của VoxPoser thành một bài toán tối ưu hóa, tức là công thức phức tạp sau:
Điều mà VoxPoser muốn đạt được là tối ưu hóa từng nhiệm vụ phụ, thu được một loạt quỹ đạo của robot và cuối cùng là giảm thiểu tổng khối lượng công việc và thời gian làm việc.
Trong quá trình sử dụng LLM và VLM để ánh xạ các hướng dẫn ngôn ngữ thành bản đồ 3D, hệ thống cho rằng ngôn ngữ có thể truyền tải một không gian ngữ nghĩa phong phú, vì vậy nó sử dụng "entity of interest(entity of interest)" để hướng dẫn robot hoạt động , tức là thông qua giá trị được đánh dấu trong Bản đồ 3DValue để phản ánh đối tượng nào “hấp dẫn” nó, còn những đối tượng đó “ghê tởm”.
Tất nhiên, làm thế nào để tạo ra các giá trị này phụ thuộc vào khả năng hiểu mô hình ngôn ngữ lớn.
Trong quy trình tổng hợp quỹ đạo cuối cùng, do đầu ra của mô hình ngôn ngữ không đổi trong suốt tác vụ, nên chúng tôi có thể nhanh chóng đánh giá lại khi gặp nhiễu bằng cách lưu vào bộ đệm đầu ra của nó và đánh giá lại mã được tạo bằng cách sử dụng phản hồi trực quan vòng kín.
Do đó, VoxPoser có khả năng chống nhiễu mạnh.
Sau đây là hiệu suất của VoxPoser trong môi trường thực và mô phỏng (được đo bằng tỷ lệ thành công trung bình):
Cuối cùng, tác giả đã rất ngạc nhiên khi thấy rằng VoxPoser đã tạo ra 4 "khả năng mới nổi":
(1) Đánh giá các đặc tính vật lý, chẳng hạn như cho trước hai khối chưa biết khối lượng, cho robot sử dụng các công cụ để tiến hành thí nghiệm vật lý xem khối nào nặng hơn;
(2) Lập luận thông thường về hành vi, chẳng hạn như trong nhiệm vụ sắp đặt bộ đồ ăn, hãy nói với robot "Tôi thuận tay trái" và nó có thể hiểu ý nghĩa thông qua ngữ cảnh;
(3) Tinh chỉnh chi tiết, chẳng hạn khi thực hiện các thao tác cần độ chính xác cao như “đắp ấm trà”, chúng ta có thể ra lệnh chính xác cho robot như “bạn sai 1 cm” để điều chỉnh hoạt động của nó;
(4) Hoạt động nhiều bước dựa trên tầm nhìn, chẳng hạn như yêu cầu robot mở chính xác một nửa ngăn kéo. Việc thiếu thông tin do thiếu mô hình đối tượng có thể khiến robot không thể thực hiện nhiệm vụ đó, nhưng VoxPoser có thể đề xuất một chiến lược hoạt động nhiều bước dựa trên phản hồi trực quan, nghĩa là trước tiên hãy mở hoàn toàn ngăn kéo trong khi ghi lại sự dịch chuyển của tay cầm, sau đó đẩy nó trở lại điểm giữa để đáp ứng yêu cầu.
Fei-Fei Li: 3 ngôi sao phương Bắc của thị giác máy tính
Khoảng một năm trước, Li Feifei đã viết một bài báo trên Tạp chí của Viện Hàn lâm Khoa học và Nghệ thuật Hoa Kỳ, chỉ ra ba hướng phát triển thị giác máy tính:
Giống như ImageNet nhằm mục đích đại diện cho nhiều hình ảnh trong thế giới thực, do đó, nghiên cứu trí thông minh được thể hiện cần giải quyết các nhiệm vụ phức tạp và đa dạng của con người, từ gấp quần áo đến khám phá các thành phố mới.
Làm theo hướng dẫn để thực hiện các tác vụ này đòi hỏi tầm nhìn, nhưng không chỉ tầm nhìn mà còn cả lý luận trực quan để hiểu các mối quan hệ ba chiều trong cảnh.
Cuối cùng, cỗ máy phải hiểu được con người trong hiện trường, bao gồm ý định của con người và các mối quan hệ xã hội. Ví dụ, nhìn thấy một người mở tủ lạnh có thể biết rằng anh ta đang đói, hoặc nhìn thấy một đứa trẻ ngồi trong lòng người lớn có thể biết rằng họ là cha-con.
Robot kết hợp với các mô hình lớn có thể chỉ là một cách để giải quyết những vấn đề này.