by Mari Ikeda

MCPによるエージェントの能力拡張 – センサーAIと の統合事例

agent-native

1. イントロダクション:専門知識とツールを持つエージェントへ 前回記事の振り返り 

前回の記事「Infrastructure for the Agent-Native Era: Towards Multi-Agent Orchestration」では、 複数の専 門的なAIエージェントが協調して問題を解決する仕組みについて紹介しました。 Solver、Critic、Analystと いった異なる役割を持つエージェントが、互いに議論し、学び合うことで、単一のLLMでは 達成できない高 精度な推論を実現できることを示しました。 

記事の中で、各エージェントに専門性を持たせる方法として、以下の2つの技術に触れました: 

  • RAG (Retrieval-Augmented Generation):専門知識ベースからの情報取得 
  • MCP (Model Context Protocol):外部ツール、データベース、システムへのアクセス 

今回は、このMCPによるエージェントの能力拡張について、具体的な実装例を交えながら深掘りします。 特 に今回は、エッジAIセンサーとLLMの統合を考えたいと思います。 

エッジAIセンサーをMCPサーバー化することで、ツールを追加する形で、エージェントに「知覚」を与える ことができます。 エッジ上の小さなAIと、クラウド上の大きなLLMが協力する世界。これこそが、Edge Cloud Continuumと、エージェント ネイティブ時代のインフラストラクチャが実現する姿です。 

2. MCP (Model Context Protocol) とは 

2.1 概要 

MCP(Model Context Protocol)は、Anthropicによって提唱され、急速に業界標準となりつつある オープ ンスタンダードです。MCPは、AIシステムに様々な機能を「USBのように」簡単に追加できる仕組みを提供 します。 

ChatGPTやClaudeといったMCPに対応したLLMアプリケーションから、データベースや、API経由で外部ツ ールに 標準的な方法でアクセスできるため、各AIエージェントに、適したツールを与えることができます。 

2.2 MCPの3つの主要機能 

MCPサーバーは以下の3つの主要機能を提供します: 

1. Resources:データソースへのアクセス 

  • ファイル、データベース、ドキュメント等 
  • エージェントが参照できる情報源 

2. Tools:LLMが実行することができる、MCPサーバ毎に定義されているアクション 

  • API呼び出し、計算処理、データ更新等、様々なものがある。 
  • エージェントが能動的に利用可能。

3. Prompts:再利用可能なプロンプトテンプレート 

  • タスク固有の指示セット 
  • エージェントの専門性を定義 

2.4 なぜ標準化が重要か 

標準化されたプロトコルの存在により: 

  • 開発効率の向上:各ツールごとの個別実装を避けられる 
  • 動的な組み合わせ:エージェントが必要なツールをタスクに応じて選択可能 
  • エコシステムの形成:公式ライブラリにより誰でも簡単にMCPサーバーを開発・共有できる

3. 実例:エッジAIセンサーをMCPサーバー化 

3.1 このMCPサーバーが面白いところ 

多くのMCPサーバーは、以下のようなツールへのアクセスを提供します: 

  • データベース → 過去のデータ、記録 
  • APIエンドポイント → 外部サービスの情報 
  • ファイルシステム → ドキュメント、コード 

しかし今回紹介する実装では、AIカメラ=リアルタイムセンサーをMCPサーバー化します。 これにより、エ ージェントは下記の能力を手に入れることができます。: 

  • **「記憶」ではなく「知覚」**にアクセス 
  • リアルタイムの物理世界の情報を取得 
  • 現在進行形の状況を理解して判断 

特に、物理世界を知覚して、その場のエッジAIでリアルタイムに判断をおこなう、などの使用方法が 想定さ れます。

3.2 システム構成 

本記事では、Raspberry Pi AI Cameraを使用した実装例を紹介します。 


[LLM (Claude/ChatGPT)] 

 ↓ MCP Protocol 
 ↓ 
[Raspberry Pi] 

 ├─ MCPサーバー (Python/FastAPI) 
 │ ├─ MCP Protocol実装 
 │ └─ 結果取得・整形 
 │ 
 └─ Raspberry Pi AI Camera 
 └─ エッジAI推論
 ├─ 物体検出(Object Detection) 
 └─ 画像分類(Classification)

処理フロー: 

3.3 アーキテクチャの特徴 

エッジAI推論 

Raspberry Pi AI Cameraはカメラ内部でAI推論を実行します。 そのため、下記のような恩恵が受けられま す。: 

  • リアルタイム処理:低レイテンシで物体検出 
  • 省電力:専用ハードウェアによる効率的な推論 
  • オンデバイス処理:ネットワーク帯域を節約 

メタデータのみ送信 

さらに、重要な設計思想として、画像そのものは送信しません。代わりに、AI推論の結果のみを送信しま す:


{ 
       "model_type": "detection", 
       "timestamp": "2025-10-31T10:15:30.123456", 
       "results": [ 
             { 
                 "label": "horse", 
                 "confidence": 0.68, 
                 "category": 16, 
                 "box": [420, 0, 635, 298], 
                 "normalized_box": [0.0005, 0.6572, 0.6213, 0.9922] 
           }
      ]  
}

3.4 MCPエンドポイントについて 

MCPサーバーのエンドポイントは、AIエージェントがツールにアクセスするためのインターフェースを提供 します。 

実装の詳細には踏み込みませんが、MCPでは、APIエンドポイントとしてツールごとにエントリポイントが 設けられ、 各ツールの仕様(名前、説明、入力スキーマなど)はサーバー側で明示的に定義されます。 


# MCPプロトコルのエンドポイント 
@app.post("/mcp/sse") 
async def mcp_endpoint(): 
         # MCPリクエストを処理 
         # カメラからの最新推論結果を返す 
         pass 

# ツール定義 
tools = [ 
       { 
            "name": "camera_status", 
            "description": "Get current object detection results from camera",  "inputSchema": {...} 
       } 
]

カメラとの接続には、picamera2ライブラリを使用し、Raspberry Pi AI Cameraの推論結果を リアルタイム で取得します。 

3.5 実際の動作例 

ユーザーとLLMのやり取り例: 

  
  ユーザー:「今カメラに何が映っている?」 

  LLM:[MCPサーバーにリクエスト] 
       ↓  
       カメラが「horse(馬)」を検出 
       信頼度:68% 
       位置:[420, 0, 635, 298], 
       ↓ 
      「カメラには馬が映っています。 
        信頼度68%で、画面の[420, 0, 635, 298]の位置に検出されました。」

今回は実装の詳細については割愛します。Raspberry Pi AI Camera向けのMCPサーバは、OSSとして 公開予 定ですので、リリースされ次第あらためてアナウンスします。 ぜひ今後のアップデートにご期待ください!

4. AIエージェントへの組み込み例:イメージ情報の階層的処理

4.1 役割分担による効率化 

エージェントシステムでは、物理的世界からの入力情報を、エージェント間で分担して、階層的に処理を実 行することで、 効率と精度を両立できます。MCPを使うことで、エッジとクラウドの両方に最適なAI技術を 組み合わせられます: 

それぞれのコンポーネントの役割: 

  • Agent with LLM(オーケストレーター):全体を統合的に判断し、自然言語でインタラクション。必 要に応じてエッジAIやVLMにMCP経由でアクセス 
  • Edge AI sensor Agent:大量のデータを高速処理し、重要な情報のみを抽出。Raspberry Pi上で動作
  • Vision analysis Agent with VLM:詳細な画像解析が必要な場合に、LLMからMCP経由で呼び出され る。クラウドAPI上で動作 

4.2 考えられるシナリオ 

製造現場での品質管理 


[Orchestrator Agent] 
 ↓ 
 ├─ [Edge AI Sensor Agent] (MCP) 
 │    └─ 「異常な形状を検出」 
 │    └─ 1分間に100個の製品をスキャン 
 │    └─ 99%の正常品を高速フィルタリング 
 │ 
 └─ [VLM Analysis Agent] (MCP) 
       └─ 疑わしい1%を詳細分析 
       └─ 「表面に0.3mmの傷」 
       └─ 「色むらが基準値の15%超過」

メリット:

  • エッジAIで大量データを高速処理(コスト削減) 
  • VLMで精密検査(品質保証) 
  • LLMで判断と記録(トレーサビリティ) 

セキュリティ監視システム 


[Security Management Agent] 
 ↓ 
 ├─ [Multiple Edge AI Cameras] (MCP) 
 │     ├─ エリアA:通常の人の動き 
 │     ├─ エリアB:異常な動作パターン検出 ⚠ 
 │     └─ エリアC:無人 
 │ 
 ├─ [VLM Detail Analyzer] (MCP) 
 │     └─ エリアBの詳細分析 
 │          → 「立ち入り禁止区域に接近」 
 │ 
 └─ [Alert System] 
         └─ 担当者に通知

このように、必要な異なるツールへのアクセス(センサーアクセス、データ分析、VLM等)を持つ複数のエ ージェントを、 タスクに応じて動的に選択・組み合わせて使用することで、適用可能なユースケースが広が ります。 

5. 実践:n8nで構築するMCPツールを備えたAIエージェント

5.1 ビジュアルワークフローでの統合 

n8nのようなワークフロープラットフォームを使うと、視覚的なワークフローデザインを通して、AIエージ ェントに対して特定MCPサーバへのアクセスを許可することで、特定のツールを使いこなすAIエージェント を構築できます。 以下は、Raspberry Pi AI CameraをMCP経由で接続したAIエージェントのワークフロー例 です:

5.2 ワークフローの構成 


[User Message] 
 ↓ 
[AI Agent] ← 中心のオーケストレーター 
 ├→ [OpenAI Chat Model] - 推論エンジン 
 ├→ [Simple Memory] - 会話履歴の保持 
 ├→ [Raspberry Pi AI Camera MCP Server] - 視覚センサー機能の提供 
 └→ [Generate an Image] - コンテンツ創造(画像生成API)

 5.3 処理の流れ 

1. ユーザーがメッセージを送信 

  • 例:「カメラに映っているものを教えて」 

2. AI AgentがMCPサーバーにリクエスト 

  • Raspberry Pi AI Camera MCP Serverから物体検出結果を取得 
  • メタデータ形式で受信(画像データは受け取らない) 

3. メタデータを解釈 

  • 「horse(馬)が信頼度68%で検出された」 
  • 画像内における位置情報を理解 

4. コンテンツ生成アクションの実行 

  • 検出したオブジェクトをベースに画像生成 

5. ユーザーに応答 

  • 自然言語での説明 + 生成した画像

5.4 実行例 

Raspberry Pi AI Cameraでうつした画像。 

n8nで作成したワークフローと、最終処理結果。

シナリオ:カメラが馬を検出し、そのメタデータを元に新しいビジュアルを生成 


Input: 
カメラ検出結果 → {"label": "horse", "confidence": 0.68, ...} 

Agent Processing: 
1. MCPサーバーからメタデータ取得 
2. LLMが「馬が映っている」と理解 
3. 画像生成APIに指示 

Output: 
「カメラには馬が映っています(信頼度68%)。 
この検出結果をもとに、リアルな馬の画像を生成しました。」 
+ [生成された画像]

5.5 このアプローチの意義 

このワークフローは、実際のユースケースと紐付いて構築されたものではありませんが、AIエージェントに 対して、以下の能力を統合的に実行させる能力を与えているといえます。: 

  • 知覚(Perception):センサーからのリアルタイムデータ取得 
  • 理解(Understanding):LLMによるメタデータの解釈 
  • 創造(Creation):検出情報をベースにした新しいコンテンツ生成 

n8nのようなビジュアルツールを使うことで、ノーコードでこうした高度なAIエージェントシステムを構築 でき、「エージェントに知識やツールを与える」というコンセプトを、簡単に行う環境が整5つあることがわ かります。 

6. まとめ:エージェントネイティブ時代のインフラストラクチャ 

MCPを活用することで、エージェントに対して外部ツールや、本事例で示したようにエッジAiセンサーを簡 単に追加することができます。例えばこのようなシステムが想定されます。 

複数センサーの協調動作 

  • オーケストレーターが各センサーエージェントの特性を理解 
  • タスクに応じて最適なセンサーを選択・配置 
  • センサー間での情報共有と統合判断 

タレントマーケットプレイスの実現 


Task: 「品質管理システムを構築したい」 
 ↓ 
Marketplace から最適なエージェントを選択: 
├─ Edge AI Camera Agent (物体検出専門) 
├─ VLM Analysis Agent (欠陥検査専門) 
├─ Database Agent (品質データ管理) 
└─ Report Generator Agent (レポート作成) 
         ↓ 
Orchestrator が協調動作を管理 
         ↓ 
実用的な品質管理システムの完成(エッジ × クラウドの最適分業)

 本記事で見てきたように、MCPサーバを活用することで、AIエージェントに特定ツールへのアクセスを与 え、エッジAIセンサーによる「知覚」をも活用することが容易になりました。 エッジAIセンサーとクラウド LLMを組み合わせることで、これまで実現困難だった応用シーンが現実のものとなっています。 

Raspberry Pi AI Camera向けMCPサーバーは、近日中にOSSとして公開予定です。 ぜひ実際に試して、エー ジェントに新しい能力を与える体験をしてみてください。