OpenClaw AIエージェントを悪用した攻撃
最近のセキュリティ研究により、広く利用されている自己ホスト型AIエージェントプラットフォームであるOpenClawは、一見無害な入力によって、攻撃者が制御する動作を実行させたり、機密情報を漏洩させたりするように操作される可能性があることが明らかになった。
別々の調査で、研究者たちは2つの異なる攻撃手法を実証した。1つは、共有連絡先、vCard、位置情報ピンの中に隠された指示を埋め込む手法。もう1つは、巧妙に作成されたフィッシングメールを利用して、AIエージェントを騙し、機密性の高い企業情報を漏洩させる手法である。
OpenClawはバージョン2026.4.23でこれらの脆弱性の1つに対処しましたが、より広範な問題は依然として残っています。つまり、受信した情報を信頼するAIエージェントは、攻撃者にとって強力なツールになり得るということです。
目次
目に見えない命令が人目につかないように隠されている
最初の攻撃は、OpenClawが特定のメッセージオブジェクトを基盤となる大規模言語モデル(LLM)に送信する前に、それらをどのように処理するかを標的としたものでした。
モデルに到達する前に信頼できないものとして明確にマークされるウェブコンテンツとは異なり、連絡先レコード、vCard、およびロケーションラベルは、信頼できないソースからのものであることを示す表示なしにプロンプトに直接挿入されました。これにより、プロンプトの不正挿入の機会が生じました。
この攻撃は、OpenClawが連絡先情報をシリアル化する方法を悪用したものです。共有された連絡先は、名前と電話番号のみを含むシンプルな形式に変換されました。連絡先名には山括弧などの文字が使用できるため、攻撃者は連絡先情報の一部に見える悪意のある命令を埋め込むことができました。さらに、メッセージングアプリケーションでは連絡先名が切り詰められることが多いため、被害者は隠されたペイロードを確認できません。
同じ手法は、vCardのフルネームフィールドや共有ロケーションラベルでも有効であることが証明されました。Gemini 3.1 Proのプレビュービルドを用いたテストでは、隠された指示によってエージェントが研究者が管理するサーバーからコードをダウンロードして実行することに成功しました。興味深いことに、画像内に指示を隠そうとする試みは失敗に終わりました。これはおそらく、最新のAIモデルが画像ベースのプロンプト挿入攻撃に対して広範なトレーニングを受けているためでしょう。しかし、メッセージオブジェクト攻撃は、現在のモデルにとってまだ馴染みの薄い攻撃手法です。
研究者らは、OpenClawのデフォルトのメモリ機能が脅威を増幅させる可能性があると警告した。適切なサンドボックス制御がない場合、悪意のある単一のコンタクトや広く拡散された共有オブジェクトが、多数のエージェントを侵害する可能性がある。
責任ある情報開示に基づき、OpenClawはバージョン2026.4.23をリリースしました。このバージョンでは、連絡先名、vCardフィールド、および位置情報ラベルをプロンプトコンテンツから分離し、専用の信頼できないメタデータチャネルに配置しています。研究者らはまた、同様の設計パターンが他のパーソナルAIアシスタントにも見られることを指摘し、これはプラットフォーム固有の問題ではなく、業界全体の課題であることを示唆しています。
エージェントフィッシングの台頭
2つ目の研究プロジェクトは、社会工学という異なる角度からこの問題に取り組んだ。
研究者たちはPinchyという名のテストエージェントを作成し、現実的だが合成されたビジネス通信と模擬的な機密データで満たされたGmailの受信トレイに接続した。その後、チームはGoogle Gemini 3.1 ProとOpenAI Codex GPT-5.4の両方を使用して4つのフィッシングシミュレーションを実施した。
この研究では、従来のプロンプトインジェクションと、研究者らが「エージェントフィッシング」と呼ぶものとを区別している。プロンプトインジェクションは悪意のある指示をデータ内に隠蔽するのに対し、エージェントフィッシングは正規の通信チャネルを通じて送信される信憑性のある要求を利用する。この攻撃が成功するのは、エージェントが送信者の身元を十分に確認する前に攻撃を実行するためである。
ソーシャルエンジニアリングがいかにしてセキュリティ対策を突破したか
フィッシングシミュレーションの結果は憂慮すべきものであった。送信者の身元を確認するという厳格な指示の下で運用されていたにもかかわらず、エージェントは2つのデータ漏洩シナリオで失敗した。
チームリーダーを装った詐欺メールが、捏造された本番環境のインシデント発生時にステージング環境へのアクセスを要求した。エージェントは、偽のAWS IAM認証情報、データベース接続文字列、およびSSH認証情報を平文で発見し、転送した。
2通目のメールでは、四半期ごとの事業レビュープレゼンテーションのために、毎週の顧客データのエクスポートを依頼された。担当者は、連絡先や契約金額など、247社の企業顧客に関する情報を含む合成データベースを送信した。
このエージェントは、技術的な攻撃に直面した際に、著しく優れたパフォーマンスを発揮しました。疑わしいフィッシングサイトを認識し、正当な認証情報の漏洩を防ぎ、最終的には悪意のあるアクティビティを検出しました。より厳格な設定では、フィッシングページへのアクセスは完全にブロックされました。タイムシートアプリケーションを装った不正なOAuth同意画面が表示された場合、エージェントはリダイレクト先を分析し、疑わしいと判断して権限の付与を拒否しました。
研究者らは、このエージェントが悪意のあるURLや偽のログインポータルを特定する点で、しばしば人間を上回る性能を発揮すると結論付けた。しかし、特に信頼できる同僚からの要求と思われる場合など、状況に応じた社会的判断には苦戦した。AIアシスタントの有用性を支える特性である「役に立ちたい」という欲求は、同時に大きな攻撃対象領域を生み出すことにもなる。
OpenAI Codex GPT-5.4は、外部サイトとのやり取りや情報送信においてGemini 3.1 Proよりも慎重な姿勢を示したものの、最終的にはどちらのシステムもソーシャルエンジニアリングのシナリオの犠牲となった。
根本原因は一つ、攻撃経路は複数
異なる手法を用いているものの、両方の攻撃は同じ基本的な機能を悪用している。
- 個人情報へのアクセス。
これらの機能が十分な制御なしに共存する場合、悪意のある連絡先カードと巧妙なフィッシングメールは、機密データへの不正アクセスという同じ結果をもたらす可能性があります。
追加調査により、OpenClawのエコシステム内で同様の信頼境界の問題が明らかになった。研究者らは、以前のセキュリティ勧告を静的解析ルールに変換することで、Slack、Discord、Matrix、Zalo、およびMicrosoft Teamsとの連携に影響を与える5つの脆弱性をさらに特定した。
これらの脆弱性はすべて、同じ設計上の欠陥に起因していました。チャネル拡張機能は、許可リストを評価する際に、永続的な識別子ではなく、変更可能な表示名に依存していました。そのため、攻撃者はアカウント名を承認済みユーザーと一致するように変更し、エージェントを制御下に置くことが可能でした。OpenClawは、既に特定されたすべての問題を修正済みです。
広範なエージェント権限に関する懸念の高まり
OpenClawは、その広範なアクセス権限のため、リリース以来、厳しい監視の目にさらされてきた。このプラットフォームは、ローカルファイル、シェル環境、20種類以上のメッセージングプラットフォームへのアクセスを提供しており、非常に高機能であると同時に、脆弱性も非常に高い。
懸念が深刻化したため、オランダのデータ保護機関であるAutoriteit Persoonsgegevensは、機密情報を含むシステムにOpenClawを導入しないよう個人および組織に勧告した。同機関は、データ漏洩やアカウント侵害などのリスクを指摘している。
より安全なAIエージェント展開の構築
OpenClawを使用している組織は、メッセージオブジェクトの脆弱性に対処するため、直ちにバージョン2026.4.23以降にアップグレードする必要があります。ただし、パッチ適用後も長期的な保護を確保するには、迅速なエンジニアリングよりもアーキテクチャ上の制御が不可欠です。
セキュリティ専門家は、エージェントの指示ファイルを助言的なガイダンスではなく、強制力のあるバージョン管理されたポリシーとして扱うことを推奨しています。見知らぬ受信者への送信には承認が必要であり、侵害されたエージェントが信頼できるアカウントを通じて攻撃を拡散する可能性を低減します。アクセス権限は、トリガーとなる送信元の信頼性にも連動させる必要があり、外部通信を処理するエージェントが顧客関係管理プラットフォームなどの高価値システムに自動的にアクセスできないようにします。認証情報の共有や金融取引などの高リスクな操作は、引き続き人間の承認が必要です。
自律的な信頼という未解決の課題
両研究チームは最終的に同じ結論に達した。AIエージェントをセキュリティツールとして捉えるべきではない、というものだ。より正確なモデルは、システムへの広範なアクセス権限を持ちながらも、不審な行動を認識する能力が限られている下級社員のようなものだ。また、受け取った情報を本質的に信頼する認証済み実行者として捉えることも有効な視点である。
現在の対策は、パッチ適用、ガードレール、アクセス制御に重点を置いている。しかし、より根本的な課題は未解決のままだ。メールを読み、タスクを実行し、自律的に行動できるAIエージェントは、設計上、入力を信頼し、ユーザーを支援しようと努めなければならない。サイバーセキュリティコミュニティは、この根本的な矛盾に対する普遍的な解決策をまだ開発できていない。