- AIエージェントとは?
- Operatorとは?
- Operatorでできること
- Operatorのバックグラウンド技術(Computer-Using Agent (CUA))
- Operatorでできること2(自身のPC内のちょっとした作業の効率化≒RPAの進化版?)
- 雑記1:RPAぽさがあるとなると、課題は設定の困難度やメンテナンス性か?
- 雑記2:RPAと比べてあげないで・・・
- 雑記3:RPAの(屍)を乗り越え、AIエージェントの未来(DX)を見据えて(妄想)
気づいたら先日OpenAI社からAIエージェントのOperatorが発表されました。
実際の動きや凄さは、これすげえのプロの驚き屋な皆様の記事をご参考をば。
本記事は、OpenAI社の発表記事から自分の思うところをつらつらと書きます。
専門家の皆様はよかったら読んでやってください。
AIエージェントとは?
こちらの記事をご参考ください。
Operatorとは?
Web にアクセスしてユーザーに代わってタスクを実行できるエージェントです。独自のブラウザを使用して、Web ページを参照し、入力、クリック、スクロールすることで操作できます。現在は研究プレビューであるため、制限があり、ユーザーからのフィードバックに基づいて進化します。Operator は、ユーザーに代わって独立して作業を実行できる AI である当社の最初のエージェントの 1 つです。タスクを与えると、それを実行します。
Introducing Operator research preview | OpenAI
Operatorでできること
Operator は、フォームへの記入、食料品の注文、ミームの作成など、さまざまな反復的なブラウザ タスクを処理するよう要求できます。人間が日常的に使用するのと同じインターフェイスとツールを使用できることで、AI の有用性が広がり、人々が日常のタスクに費やす時間を節約できると同時に、企業にとって新たなエンゲージメントの機会が生まれます
#アメリカのProユーザのみ、2025/1時点では利用可能とのこと
ここまでは上で書いたようなAIエージェント紹介記事で書いたようなことを現実世界で実現されていますね。
例えばTarget(イオンみたいな小売店)やStubHubといったチケットサイトが
提携しているとのことです。
日常で利用するWebサービスがAIエージェントと提携していくとなると、
どうやら顧客体験がガラッと変わりそうです。
今まで:Webサイト内でポチポチクリックして自分の意図に合うものを選択
これから:エージェントとの自然文(もしかしたら自分の口頭での指示)のやり取りをして、自分の意図に合うものを選択
自分の意図に合ったものをポチポチ頑張って探す面倒さから、
自然文や口頭の指示で自分の意図に合う候補を選んでもらうような体験に変わりそうです。
企業としても、Webサービスの利便性向上に加え、エージェントがユーザの予約や注文実行までしてくれるわけですから、途中離脱なども少なくなりそうな感があります。
大体、調べて→整理して→これにしよ!→色々情報入力→やっと予約・注文と最後の予約・注文完了までが大変なことが多いわけで、それだけで途中離脱してしまうわけなので、そこをエージェントが補ってくれるなら売上UPが見込めそうです。
個人的には、ぽちぽち候補を探して整理してどれにしようかな〜も楽しいですが手間なので、意図に合った候補を整理して出してもらい、そこから選んで実行までしてもらう方がはるかに楽だろうなあと妄想しました。
Operatorのバックグラウンド技術(Computer-Using Agent (CUA))
Operator は、Computer-Using Agent (CUA)と呼ばれる新しいモデルを搭載しています。GPT-4o の視覚機能と強化学習による高度な推論を組み合わせることで、CUA は、画面に表示されるボタン、メニュー、テキスト フィールドなどのグラフィカル ユーザー インターフェイス (GUI) を操作するようにトレーニングされます。
Operator は、ブラウザを「表示」(スクリーンショットを通じて)し、「対話」(マウスとキーボードで可能なすべてのアクションを使用)できるため、カスタム API 統合を必要とせずに Web 上でアクションを実行できます。
問題に遭遇したり間違いを犯したりした場合、Operator は推論機能を活用して自己修正することができます。行き詰まり、支援が必要になった場合は、ユーザーに制御を戻すだけで、スムーズで協力的なエクスペリエンスが保証されます。
AlphaGOの囲碁の次の一手を予測するモデルではないですが、Operatorは、
人間なら自身の意図をこのWebサービスの画面を見て次にどういう動作で反映させるかを、ユーザの指示文と実際に利用するWebサービスの画面スクリーンショットを結びつけて覚えさせたような感じですかね。
そうやって学習したOperatorは自然文に書かれた意図を読み取り、それに沿った操作をしてくれるようです。
こうみてると、RPAの超進化版なのかなと思うようになりました。
(ぜんぜん別物ですが、なんとなく多分自然文を入力しているときに、これRPAで設定した内容や〜〜〜って思う日が来そう)
ただ、現時点においてはこういうようなRPAぽさがあると思うのですが、
そのうちそんなぽさは消え去ったアプリケーションがすぐに登場しそうです。
Operatorでできること2(自身のPC内のちょっとした作業の効率化≒RPAの進化版?)
もう少しCUAを読み進めると、自身のPC内(いろんなOS)で以下のようなこともできるようになりますと紹介されています
- 対象のWebサイトから、指示した内容に関するファイルをダウンロードし、自身のPCに保存
- メールの添付ファイルを全て結合し、指定のフォルダに保存
- エクセルから情報抽出して、平均値を計算
もうこれってRPAで対応してた作業ジャン!!!!
これRPAで指定するの面倒なんすよね〜〜そこが精度高くできるようになったと考えると、作業効率上がりそうです。
なお、上記は自然文で書くのは面倒くさいかもですが、そのうち音声デバイスと合体したらすごく楽になりそうです。(SF世界で、「コンピュータ、XXとXXを調べてまとめてくれ、かしこまりました」なやつ)
実際の動作画面はこちらからぜひ見てみてください。
雑記1:RPAぽさがあるとなると、課題は設定の困難度やメンテナンス性か?
RPAは、マニュアルでカリカリに設定するものと、ある程度画像認識させ・このボタン押せの場合はそのボタンの位置などで対応させると言ったシステマチックな感じでした。(他にも色々ありそうだけど)
前者は、設定が面倒of面倒で、後者はちょっと画像やWebサービスの情報が変わるとたちまち上手く動作せずメンテナンスが必要なのでした。
AIエージェントは、設定は自然文でできるのでそこまで大変さはないかも、メンテナンスも都度最新情報を与え、指示内容は多少変えないといけないかもなのでここはそこまで変わらないかもかも・・・?
ただ、これら全ての課題はRPAを対応するエンジニアが今までヒーヒー言いながらがんばって対応していたのが、AIエージェントであればRPAを使っていたユーザ自身で対応できるようになるのだから、個々人の仕事の効率性や利便性はかなり向上しそうな感です。
雑記2:RPAと比べてあげないで・・・
RPAはそもそも個人のルーティンワークを効率化するための代物であって、
人の意図に柔軟に対応できる代物ではありません。
(もし対応していたけど?と思われる方は、裏でヒーヒー言いながらRPAを設定していた若手が頑張っていただけです。お偉いさんの皆様どうぞ若手を褒めてやってください)
なんなら、RPAにユーザの意図を取り入れた旅程を計画するなどはできるわけもなく。
すごーく一面だけをみると、RPAぽさを回顧するのですが、比較対象にしてあげるのは酷な気がします。
雑記3:RPAの(屍)を乗り越え、AIエージェントの未来(DX)を見据えて(妄想)
DXがもてはやされ、はや数年ですが、AIエージェントは企業のビジネスモデルや業務プロセスを変革するための起爆剤になるかもしれないと妄想しました。
RPAも業務プロセスという点では効率化の観点でDXしたかもですが、どうしてもルーティンワークOnlyだし、設定とメンテナンス考慮すると費用対効果ほんとかなどうかなな感もありそうです(本当に機械的に対応したいものはRPA便利で正確だと思います)
かといってAIエージェントも費用対効果は数年後回顧したらRPAの二の舞な感もあるかもですが、新しい顧客価値体験の提供や企業内の従業員個々人のちょっとした作業効率化の向上に寄与することを考えると、企業全体で見るとかなりな効果が出そうな気がします。
と、今日はここまで。
PS:RPAを目の敵にしているわけではありません、悪しからず。