Những tiến bộ trong AI vật lý có nghĩa là máy móc có thể học những kỹ năng mà trước đây được cho là không thể, hứa hẹn những bước phát triển mang tính biến đổi trong các lĩnh vực như y tế và sản xuất. Các nhà đầu tư đang lưu ý.
Nhiệm vụ này hầu như không làm khó được một đứa trẻ mới biết đi. Nhưng đối với một robot như robot do Viện nghiên cứu Toyota chế tạo, đó là một thành công mang tính đột phá trước một nhiệm vụ khó khăn.
Máy móc có thể thực hiện các phép tính mạnh mẽ ngay lập tức nhưng chúng vẫn phải vật lộn với sự phức tạp của thế giới vật chất.
Giờ đây, sau nhiều năm phát triển chậm chạp, trí tuệ nhân tạo đang thay đổi cách robot học cách di chuyển và điều hướng trong môi trường. Họ đang tiếp thu các kỹ năng nhanh hơn bao giờ hết và thích nghi theo những cách mà trước đây họ cho là không thể.
Một số đột phá nghiên cứu gần đây đã mang lại những nhiệm vụ phức tạp mà trước đây tách con người khỏi robot trong tầm tay.
Ngoài việc lật trang, các nhà nghiên cứu tại Viện nghiên cứu Toyota cũng đã dạy cánh tay robot cách phết sô-cô-la. Tại Stanford, máy móc có thể nấu tôm và mở nắp nồi nhựa. Trong khi đó, một nhóm tại Google DeepMind đã có một robot để treo áo sơ mi lên móc áo.
Những tiến bộ có vẻ khiêm tốn này cho thấy AI đang có tác động sâu sắc đến robot như thế nào giống như các mô hình ngôn ngữ lớn, như ChatGPT, đã tác động đến từ ngữ. Bước nhảy vọt khổng lồ trong việc tạo ra văn bản và hình ảnh hiện đang bắt đầu xảy ra với các hành động.
Jensen Huang, ông chủ của gã khổng lồ chip Nvidia, đã tuyên bố vào tháng 6: “Làn sóng AI tiếp theo là AI vật lý”. “AI hiểu được các định luật vật lý, AI có thể hoạt động giữa chúng ta.”
Mặc dù máy trợ giúp đa năng có khả năng làm mọi việc mà con người có thể vẫn còn xa vời, nhưng những phát triển kiểu này có thể mang tính biến đổi trong lĩnh vực chăm sóc gia đình, sức khỏe và sản xuất – và các nhà đầu tư đang lưu ý.
Sự phấn khích xung quanh những tiến bộ gần đây đang thu hút sự quan tâm và tiền mặt ngày càng tăng từ rất nhiều nhà nghiên cứu, công ty công nghệ lớn và nhà đầu tư. Theo PitchBook, hơn 11 tỷ USD đầu tư mạo hiểm vào robot và máy bay không người lái đã được thực hiện tính đến cuối tháng 10, vượt qua con số 9,72 tỷ USD của năm ngoái.
Russ Tedrake, giáo sư tại Viện Công nghệ Massachusetts và phó chủ tịch nghiên cứu robot tại Viện Nghiên cứu Toyota, cho biết: “Các cửa xả lũ đã thực sự mở ra”. “Các gã khổng lồ công nghệ đang nhảy vào, các công ty khởi nghiệp mới mọc lên. . . mọi người đều lạc quan rằng nó sẽ đến.”
Khoa học viễn tưởng từ lâu đã nuôi dưỡng ý tưởng coi máy móc là những người hầu trung thành và những ông chủ khủng khiếp, từ “droid giao thức” của Star Wars cho đến những sát thủ không ngừng nghỉ của loạt phim Terminator.
Tuy nhiên, trong thế giới thực, việc bắt robot thực hiện những nhiệm vụ thậm chí tầm thường cũng tỏ ra khó khăn. Việc tương tác với con người vẫn đặc biệt khó khăn vì robot cần điều hướng không gian năng động của chúng ta và hiểu những cách thức tinh tế mà con người truyền đạt ý định.
Những hạn chế của phần cứng và đặc biệt là phần mềm đã hạn chế khả năng của robot, ngay cả khi chúng đã chuyển đổi một số quy trình công nghiệp, chẳng hạn như tự động hóa nhà kho.
Các thế hệ máy móc trước đây phải được lập trình bằng mã phức tạp hoặc được dạy chậm thông qua thử và sai, các kỹ thuật dẫn đến khả năng hạn chế trong các nhiệm vụ được xác định hẹp được thực hiện trong môi trường được kiểm soát chặt chẽ.
Nhưng nhờ những tiến bộ trong AI, hai năm qua đã khác. Carolina Parada, người đứng đầu nhóm robot của Google DeepMind cho biết: “Đây là thứ đang tiến triển với tốc độ nhanh hơn nhiều so với chúng tôi nghĩ”. “Và điều đó chắc chắn đã tiếp thêm sinh lực cho mọi người.”
Tiến bộ phi thường trong việc tạo ra văn bản và hình ảnh bằng AI đã được thực hiện nhờ việc phát minh ra các mô hình ngôn ngữ lớn (LLM), hệ thống làm nền tảng cho chatbot.
Các nhà chế tạo robot hiện đang xây dựng dựa trên những mô hình này và những người anh em họ của chúng, các mô hình ngôn ngữ được điều chỉnh bằng thị giác, đôi khi được gọi là mô hình ngôn ngữ thị giác, kết nối thông tin văn bản và hình ảnh.
Với quyền truy cập vào dữ liệu văn bản và hình ảnh khổng lồ hiện có, các nhà nghiên cứu có thể “huấn luyện trước” các mô hình robot của họ về các sắc thái của thế giới vật chất và cách con người mô tả nó, ngay cả trước khi họ bắt đầu dạy cho sinh viên máy móc những hành động cụ thể.
Ví dụ: nếu bạn là một robot và được yêu cầu nhặt một chiếc cốc màu xanh lam đặt trước mặt bạn, bạn sẽ cần phải làm được một số việc.
Đầu tiên, bạn cần hiểu ý nghĩa của các từ khi chúng được truyền đạt bằng ngôn ngữ của con người. Bạn có thể học điều này thông qua LLM.
Sau đó, bạn sẽ cần biết cách áp dụng ý nghĩa này vào thế giới thực. Bạn có thể được dạy về những kết nối này thông qua một loạt dữ liệu ngôn ngữ thị giác, có thể bao gồm các hình ảnh được dán nhãn hoặc dữ liệu trả lời câu hỏi về thị giác, giúp bạn có khả năng trả lời các câu hỏi cơ bản về những gì bạn đang nhìn thấy trước mặt.
Khi bạn đã hiểu đầy đủ hướng dẫn ban đầu, bạn sẽ cần biết cách di chuyển và vị trí. Thông tin này được cung cấp bởi dữ liệu hành động, có thể bao gồm nhân bản hành vi, trong đó một nhiệm vụ được con người thực hiện nhiều lần cho robot.
Chìa khóa của quá trình học tập này là “khuếch tán” – một kỹ thuật nổi tiếng trong thế giới tạo hình ảnh AI. Nó liên quan đến việc dữ liệu dần dần được chuyển đổi bằng cách thêm “nhiễu”, với các mô hình AI học cách loại bỏ nhiễu để tạo ra dữ liệu mới, chẳng hạn như hình ảnh hoặc văn bản. Kỹ thuật này đã được phát triển thêm bởi các nhà chế tạo robot, những người đã bắt đầu sử dụng nó để tạo ra các hành động.
Nhưng trong thế giới thực hỗn loạn, luôn thay đổi, máy móc không chỉ cần có khả năng thực hiện các nhiệm vụ riêng lẻ như thế này mà còn cần thực hiện vô số công việc trong các môi trường khác nhau.
Những người quan tâm đến robot tin rằng câu trả lời cho sự khái quát hóa này sẽ được tìm thấy trong các mô hình nền tảng cho thế giới vật chất, sẽ dựa trên cơ sở dữ liệu ngày càng tăng liên quan đến chuyển động – ngân hàng thông tin ghi lại hành động của robot.
Hy vọng rằng những mô hình hành vi lớn này, một khi đủ lớn, sẽ giúp máy móc thích ứng với những môi trường mới và khó lường, chẳng hạn như môi trường thương mại và gia đình, làm thay đổi nhanh chóng hoạt động kinh doanh và cuộc sống gia đình của chúng ta.
Nhưng những mô hình này phải đối mặt với nhiều thách thức ngoài những gì cần thiết cho AI tạo ngôn ngữ. Họ phải điều khiển các hành động tuân theo các định luật vật lý trong thế giới ba chiều và thích ứng với môi trường năng động có các sinh vật sống khác chiếm giữ.
Thách thức hiện tại đối với việc phát triển các mô hình hành vi lớn này là sự khan hiếm dữ liệu – một khó khăn mà các mô hình ngôn ngữ lớn cũng phải đối mặt do nguồn thông tin của con người đang cạn kiệt.
Nhưng một nỗ lực chung lớn đang được tiến hành trong cộng đồng người máy nhằm tạo ra các bộ dữ liệu đào tạo mới. Trợ lý giáo sư Chelsea Finn của Stanford cho biết: “Chúng tôi nhận thấy có nhiều dữ liệu hơn, bao gồm dữ liệu cho các nhiệm vụ rất phức tạp — và nhận thấy rất nhiều lợi ích từ việc đưa dữ liệu đó vào”.
“Nó gợi ý rằng nếu chúng ta có thể mở rộng quy mô hơn nữa thì chúng ta có thể đạt được những bước đột phá đáng kể trong việc cho phép robot thành công trong môi trường thế giới thực.”
Thế hệ robot do công ty tiên phong về robot của Mỹ là Boston Dynamics chế tạo cho thấy mức độ tiến bộ đã đạt được cho đến nay — cũng như những thách thức còn tồn tại.
Người tạo ra nó cho biết, robot giống chó Spot của nó có “trí thông minh thể thao”, và với hơn 1.500 cỗ máy bốn chân đang hoạt động cho các doanh nghiệp và tổ chức khác, chúng đã đóng một vai trò nào đó trong các quy trình công nghiệp.
Rất phù hợp với những công việc lặp đi lặp lại, vất vả hoặc có khả năng gây nguy hiểm cho con người, chó robot có thể được triển khai để hỗ trợ các hoạt động tìm kiếm và cứu nạn sau thảm họa, ngừng hoạt động hạt nhân và xử lý bom – nhưng mục đích sử dụng số một của chúng là kiểm tra công nghiệp. Ví dụ, gã khổng lồ dược phẩm GSK sử dụng Spot đặt riêng để kiểm tra các bình chứa chất đẩy được sử dụng trong ống hít Ventolin của công ty.
Khả năng AI của Spot cũng cho phép nó học hỏi nhanh chóng. Khi phiên bản máy sản xuất bia dành cho chó khổng lồ AB InBev gặp phải sàn trơn trượt khi đang tìm kiếm rò rỉ không khí trong dây chuyền đóng hộp, các bậc thầy ở Boston Dynamics đã sử dụng mô phỏng học máy để dạy nó cách đối phó. Công việc tỏ ra rất hiệu quả, nó đã được triển khai cho tất cả các Spot trên toàn thế giới.
Nikolas Noel, phó chủ tịch tiếp thị và truyền thông tại Boston Dynamics, hiện thuộc sở hữu của nhà sản xuất ô tô Hàn Quốc Hyundai, cho biết: “Giống như iPhone của bạn nhận được bản cập nhật phần mềm mới, robot của bạn cũng vậy”.
Boston Dynamics hiện đã giới thiệu bản nâng cấp hoàn toàn bằng điện cho robot hình người Atlas, với các khớp nhanh nhẹn và khả năng AI nâng cao, điều này làm tăng triển vọng về các robot đồng hành có thể đảm nhận các loại nhiệm vụ mà con người hiện nay đang làm.
Noel nói: “Tôi nghĩ tất cả chúng ta đều mơ ước, chẳng hạn như Rosey the Robot [ám chỉ cô hầu gái người máy trong The Jetsons] có thể lấy rác, rửa bát và nấu bữa ăn cho chúng ta. “Chúng sẽ là sự lặp lại trong tương lai. Rất có thể chúng sẽ trông hoàn toàn khác nhau. Nhưng vâng, đó là tham vọng lâu dài.”
Parada của Google DeepMind cho biết việc một robot có thể được huấn luyện để treo quần áo lên móc treo là một dấu hiệu cho thấy những khả năng này. Nếu những kỹ năng này có thể được khái quát hóa để cho phép robot làm việc với các loại quần áo khác nhau và trong môi trường mới, “bạn có thể bắt đầu tưởng tượng những mảnh này kết hợp với nhau”, cô nói. “Và sau đó bạn có một con robot thực sự có thể giặt toàn bộ đồ giặt của bạn, phải không?”
Mục tiêu của nhiều người trong lĩnh vực robot vẫn là một cỗ máy công nghiệp đa kỹ năng có khả năng thích ứng hoàn toàn, có khả năng thực hiện các nhiệm vụ như thêu và lắp ráp để sản xuất hàng loạt nhỏ – một bước đột phá sẽ cách mạng hóa các ngành công nghiệp sản xuất.
Tuy nhiên, làm thế nào robot học cách hoạt động cùng với con người vẫn là một vấn đề khó khăn. Parada đưa ra ví dụ về một chiếc máy cất đồ tạp hóa trong một ngôi nhà đông người. Robot sẽ phải hiểu các tín hiệu từ những người sống, chẳng hạn như thời điểm và cách họ sắp di chuyển.
Con người thường đánh dấu những ý định như vậy không bằng lời nói theo những cách mà máy tự động khó có thể phát hiện được. Parada nói: “Bạn sẽ phải có khả năng tương tác với họ [con người] một cách chủ động chứ không chỉ thụ động và còn có thể đọc được phòng – điều mà robot cực kỳ khó làm được”.
Cô cho biết thêm, bất chấp những thách thức này, bước nhảy vọt về mặt khái niệm đến một thế giới nơi robot gia đình đóng một vai trò trong cuộc sống của chúng ta dường như nhỏ hơn trước đây.
“Nhiều người, khi tôi bắt đầu nghiên cứu về robot từ rất sớm, sẽ nói rằng việc có một robot trong nhà để giặt giũ và lau chùi nhà cửa cho bạn là không khả thi trong cuộc đời này. Tôi có thể nói rằng hầu hết mọi người bây giờ đều nghĩ: ‘Ồ, vâng, tôi nghĩ chúng ta có thể làm điều đó trước khi tôi nghỉ hưu’.”
Về lâu dài, thậm chí những ý tưởng tiên tiến hơn cũng đã được thấm nhuần. Một là mạng thần kinh “lỏng”, hoạt động giống bộ não sinh học hơn là mạng thần kinh truyền thống và sử dụng các kết nối động để liên tục thích ứng và học hỏi từ dữ liệu mới.
Cách tiếp cận như vậy đòi hỏi ít tế bào thần kinh hoặc chất mang tín hiệu hơn và do đó khả năng tính toán ít hơn. Điều này sẽ làm cho phần cứng nhỏ gọn hơn và do đó robot sẽ ít cồng kềnh hơn khi mang theo.
“Làm thế nào chúng ta có thể mang hai thế giới này lại với nhau?” hỏi Daniela Rus, trưởng nhóm nghiên cứu mạng lưới thần kinh tại MIT. “Và luận điểm là chúng ta có thể sử dụng mạng lỏng – một mô hình mới cho AI.”
Các mạng lỏng này đã cho thấy kết quả ấn tượng trong lĩnh vực nghiên cứu xe tự lái.
Theo truyền thống, những phương tiện như vậy gặp khó khăn vào thời điểm chuyển tiếp khi điều kiện thay đổi, chẳng hạn như lúc bình minh và hoàng hôn. Trong khi các mô hình AI thông thường tập trung chú ý vào các tính năng ở hai bên đường để hướng dẫn phương tiện di chuyển giữa chúng, thì mạng lưới thần kinh lỏng tập trung nhiều hơn vào khoảng cách giữa đường cao tốc và các chướng ngại vật tiềm ẩn.
Nghiên cứu cho thấy mạng lỏng có khả năng phân biệt tốt hơn giữa các khía cạnh quan trọng và không liên quan của nhiệm vụ lái xe và gần giống với cách con người lái xe hơn nhiều. Về mặt lý thuyết, điều này có ưu điểm là làm cho mô hình dễ hiểu và hiệu chỉnh hơn.
Rus nói rằng chúng ta đang bắt đầu thấy được nhiều khả năng thực hiện được trong chế tạo robot về mặt vật lý mà trước đây được cho là không thể. Tuy nhiên, bà cho biết vẫn còn những thách thức trong việc đảm bảo có các lan can bảo vệ. Hai định luật đầu tiên về robot do Isaac Asimov đặt ra tập trung vào việc ngăn ngừa tổn hại cho con người và đảm bảo robot tuân theo mệnh lệnh của con người.
Rus nói: “Tất cả những điều tuyệt vời mà chúng tôi từng mơ ước, giờ đây chúng tôi có thể bắt đầu hiện thực hóa”. “Bây giờ chúng ta phải đảm bảo rằng những gì chúng ta làm với tất cả những siêu năng lực này là tốt.”