OpenAI を搭載したロボットのデモは、身体を備えた ChatGPT に似ています

ポストする 投稿者:  — 1 コメント ↓

キンバリー・ゲデオン著

人型の会話ロボット「Figure 01」の不気味なデモがインターネットに公開された - 信じられない『アイ,ロボット』から削除されたシーンではありません 

デモでは、  OpenAI技術が詰め込まれた Figure 01 が何を「見る」ことができるのかを尋ねられます。前衛的なロボットは視覚認識の能力を誇示し、目の前にあるもの、つまり赤いリンゴ、食器が入った物干し棚、そして図 01 に質問した男性を正確に説明します。

 

OK、少し不気味ですが、これまでに見たことのないものではありませんよね? たとえば、昨年 Google は、AI モデル Gemini が、青いゴム製のアヒルからさまざまな手描きのイラストに至るまで、目の前に置かれた刺激をどのように認識できるかを披露しました (ただし、滑らか な編集によりその機能がわずかに誇張されていたことが後に判明しました)。

しかし、その男は「何か食べてもいいですか?」と尋ねました。Figure 01 はリンゴを掴み、それがテーブルの上にある唯一の食べられる物であることをはっきりと認識し、それを彼に手渡します。

えー、ウィル・スミスはすぐには現れないって本当ですか?

Figure 01 ロボットはどのように動作しますか?

Figure 01 と人間とのシームレスなインタラクションを支えているものは、正確には何でしょうか? これは、Figure 01 を不格好なジャンクの塊から、少し人間に似すぎた SF 風の未来的なロボットに変える、新しい Visual Language Model (VLM) です (VLM は、OpenAI と Figure 01 の背後にあるスタートアップである Figure とのコラボレーションから生まれました。)

図 01 は、リンゴを渡した後、「このゴミを拾いながら、なぜ [リンゴをくれた] のか説明してもらえますか?」と尋ねられたときに、リンゴが複数のタスクに同時に取り組むことができることを示しています。

ロボットは、何がゴミなのか (何がゴミではないのか) を認識し、図 01 でゴミ箱として特定されている場所に適切なアイテムを置きながら、目の前にある唯一食べられるものだったため、男性にリンゴを差し出したと説明します。それは素晴らしいマルチタスク処理です。

最後に、男性は図 01 にどの程度うまくいったと思うかを尋ねます。ロボットは会話のようにこう言います。リンゴは新しい持ち主を見つけ、ゴミはなくなり、食器は正しい場所に収まりました。」

Figure の創設者であるブレット・アドコック氏によると 、Figure 01 には、目の前のシーンを「理解」するのに役立つ VLM データを供給するオンボードカメラが搭載されており、ロボットが目の前の人間とスムーズに対話できるようになります。 Figure 01 は、Adcock と並んで、Boston Dynamics、Tesla、Google Deep Mind、Archer Aviation の主要企業数名の発案によるものです 。

イーロン・マスクのオプティマス・ロボットを掘り下げて 、アドコックはフィギュア01は遠隔操作ではないと豪語した。言い換えれば、 シャツを折りたたむことで話題になったオプティマスとは異なり、Figure 01 は独立して動作することができます。

アドコックの最終目標は?何十億もの人型ロボットを制御する超高度な AI システムをトレーニングし、複数の業界に革命を起こす可能性があります。I, Robot は 私たちが思っていたよりもずっと本物のようです 。

新しいビジュアル

**ソース