ブログ

by Mari Ikeda

MCPによるエージェントの能力拡張 – センサーAIとの統合事例

1. イントロダクション：専門知識とツールを持つエージェントへ前回記事の振り返り

前回の記事「Infrastructure for the Agent-Native Era: Towards Multi-Agent Orchestration」では、複数の専門的なAIエージェントが協調して問題を解決する仕組みについて紹介しました。 Solver、Critic、Analystといった異なる役割を持つエージェントが、互いに議論し、学び合うことで、単一のLLMでは達成できない高精度な推論を実現できることを示しました。

記事の中で、各エージェントに専門性を持たせる方法として、以下の2つの技術に触れました：

RAG (Retrieval-Augmented Generation)：専門知識ベースからの情報取得
MCP (Model Context Protocol)：外部ツール、データベース、システムへのアクセス

今回は、このMCPによるエージェントの能力拡張について、具体的な実装例を交えながら深掘りします。特に今回は、エッジAIセンサーとLLMの統合を考えたいと思います。

エッジAIセンサーをMCPサーバー化することで、ツールを追加する形で、エージェントに「知覚」を与えることができます。エッジ上の小さなAIと、クラウド上の大きなLLMが協力する世界。これこそが、Edge Cloud Continuumと、エージェントネイティブ時代のインフラストラクチャが実現する姿です。

2. MCP (Model Context Protocol) とは

2.1 概要

MCP（Model Context Protocol）は、Anthropicによって提唱され、急速に業界標準となりつつあるオープンスタンダードです。MCPは、AIシステムに様々な機能を「USBのように」簡単に追加できる仕組みを提供します。

ChatGPTやClaudeといったMCPに対応したLLMアプリケーションから、データベースや、API経由で外部ツールに標準的な方法でアクセスできるため、各AIエージェントに、適したツールを与えることができます。

2.2 MCPの3つの主要機能

MCPサーバーは以下の3つの主要機能を提供します：

1. Resources：データソースへのアクセス

ファイル、データベース、ドキュメント等
エージェントが参照できる情報源

2. Tools：LLMが実行することができる、MCPサーバ毎に定義されているアクション

API呼び出し、計算処理、データ更新等、様々なものがある。
エージェントが能動的に利用可能。

3. Prompts：再利用可能なプロンプトテンプレート

タスク固有の指示セット
エージェントの専門性を定義

2.4 なぜ標準化が重要か

標準化されたプロトコルの存在により：

開発効率の向上：各ツールごとの個別実装を避けられる
動的な組み合わせ：エージェントが必要なツールをタスクに応じて選択可能
エコシステムの形成：公式ライブラリにより誰でも簡単にMCPサーバーを開発・共有できる

3. 実例：エッジAIセンサーをMCPサーバー化

3.1 このMCPサーバーが面白いところ

多くのMCPサーバーは、以下のようなツールへのアクセスを提供します：

データベース → 過去のデータ、記録
APIエンドポイント → 外部サービスの情報
ファイルシステム → ドキュメント、コード

しかし今回紹介する実装では、AIカメラ＝リアルタイムセンサーをMCPサーバー化します。これにより、エージェントは下記の能力を手に入れることができます。：

**「記憶」ではなく「知覚」**にアクセス
リアルタイムの物理世界の情報を取得
現在進行形の状況を理解して判断

特に、物理世界を知覚して、その場のエッジAIでリアルタイムに判断をおこなう、などの使用方法が想定されます。

3.2 システム構成

本記事では、Raspberry Pi AI Cameraを使用した実装例を紹介します。


[LLM (Claude/ChatGPT)] 

 ↓ MCP Protocol 
 ↓ 
[Raspberry Pi] 

 ├─ MCPサーバー (Python/FastAPI) 
 │ ├─ MCP Protocol実装 
 │ └─ 結果取得・整形 
 │ 
 └─ Raspberry Pi AI Camera 
 └─ エッジAI推論
 ├─ 物体検出（Object Detection） 
 └─ 画像分類（Classification）

処理フロー：

3.3 アーキテクチャの特徴

エッジAI推論

Raspberry Pi AI Cameraはカメラ内部でAI推論を実行します。そのため、下記のような恩恵が受けられます。：

リアルタイム処理：低レイテンシで物体検出
省電力：専用ハードウェアによる効率的な推論
オンデバイス処理：ネットワーク帯域を節約

メタデータのみ送信

さらに、重要な設計思想として、画像そのものは送信しません。代わりに、AI推論の結果のみを送信します：


{ 
       "model_type": "detection", 
       "timestamp": "2025-10-31T10:15:30.123456", 
       "results": [ 
             { 
                 "label": "horse", 
                 "confidence": 0.68, 
                 "category": 16, 
                 "box": [420, 0, 635, 298], 
                 "normalized_box": [0.0005, 0.6572, 0.6213, 0.9922] 
           }
      ]  
}

3.4 MCPエンドポイントについて

MCPサーバーのエンドポイントは、AIエージェントがツールにアクセスするためのインターフェースを提供します。

実装の詳細には踏み込みませんが、MCPでは、APIエンドポイントとしてツールごとにエントリポイントが設けられ、各ツールの仕様（名前、説明、入力スキーマなど）はサーバー側で明示的に定義されます。


# MCPプロトコルのエンドポイント 
@app.post("/mcp/sse") 
async def mcp_endpoint(): 
         # MCPリクエストを処理 
         # カメラからの最新推論結果を返す 
         pass 

# ツール定義 
tools = [ 
       { 
            "name": "camera_status", 
            "description": "Get current object detection results from camera",  "inputSchema": {...} 
       } 
]

カメラとの接続には、picamera2ライブラリを使用し、Raspberry Pi AI Cameraの推論結果をリアルタイムで取得します。

3.5 実際の動作例

ユーザーとLLMのやり取り例：

  
  ユーザー：「今カメラに何が映っている？」 

  LLM：[MCPサーバーにリクエスト] 
       ↓  
       カメラが「horse（馬）」を検出 
       信頼度：68% 
       位置：[420, 0, 635, 298], 
       ↓ 
      「カメラには馬が映っています。 
        信頼度68%で、画面の[420, 0, 635, 298]の位置に検出されました。」

今回は実装の詳細については割愛します。Raspberry Pi AI Camera向けのMCPサーバは、OSSとして公開予定ですので、リリースされ次第あらためてアナウンスします。ぜひ今後のアップデートにご期待ください！

4. AIエージェントへの組み込み例：イメージ情報の階層的処理

4.1 役割分担による効率化

エージェントシステムでは、物理的世界からの入力情報を、エージェント間で分担して、階層的に処理を実行することで、効率と精度を両立できます。MCPを使うことで、エッジとクラウドの両方に最適なAI技術を組み合わせられます：

それぞれのコンポーネントの役割：

Agent with LLM（オーケストレーター）：全体を統合的に判断し、自然言語でインタラクション。必要に応じてエッジAIやVLMにMCP経由でアクセス
Edge AI sensor Agent：大量のデータを高速処理し、重要な情報のみを抽出。Raspberry Pi上で動作
Vision analysis Agent with VLM：詳細な画像解析が必要な場合に、LLMからMCP経由で呼び出される。クラウドAPI上で動作

4.2 考えられるシナリオ

製造現場での品質管理


[Orchestrator Agent] 
 ↓ 
 ├─ [Edge AI Sensor Agent] (MCP) 
 │    └─ 「異常な形状を検出」 
 │    └─ 1分間に100個の製品をスキャン 
 │    └─ 99%の正常品を高速フィルタリング 
 │ 
 └─ [VLM Analysis Agent] (MCP) 
       └─ 疑わしい1%を詳細分析 
       └─ 「表面に0.3mmの傷」 
       └─ 「色むらが基準値の15%超過」

メリット：

エッジAIで大量データを高速処理（コスト削減）
VLMで精密検査（品質保証）
LLMで判断と記録（トレーサビリティ）

セキュリティ監視システム


[Security Management Agent] 
 ↓ 
 ├─ [Multiple Edge AI Cameras] (MCP) 
 │     ├─ エリアA：通常の人の動き 
 │     ├─ エリアB：異常な動作パターン検出 ⚠ 
 │     └─ エリアC：無人 
 │ 
 ├─ [VLM Detail Analyzer] (MCP) 
 │     └─ エリアBの詳細分析 
 │          → 「立ち入り禁止区域に接近」 
 │ 
 └─ [Alert System] 
         └─ 担当者に通知

このように、必要な異なるツールへのアクセス（センサーアクセス、データ分析、VLM等）を持つ複数のエージェントを、タスクに応じて動的に選択・組み合わせて使用することで、適用可能なユースケースが広がります。

5. 実践：n8nで構築するMCPツールを備えたAIエージェント

5.1 ビジュアルワークフローでの統合

n8nのようなワークフロープラットフォームを使うと、視覚的なワークフローデザインを通して、AIエージェントに対して特定MCPサーバへのアクセスを許可することで、特定のツールを使いこなすAIエージェントを構築できます。以下は、Raspberry Pi AI CameraをMCP経由で接続したAIエージェントのワークフロー例です：

5.2 ワークフローの構成


[User Message] 
 ↓ 
[AI Agent] ← 中心のオーケストレーター 
 ├→ [OpenAI Chat Model] - 推論エンジン 
 ├→ [Simple Memory] - 会話履歴の保持 
 ├→ [Raspberry Pi AI Camera MCP Server] - 視覚センサー機能の提供 
 └→ [Generate an Image] - コンテンツ創造（画像生成API）

5.3 処理の流れ

1. ユーザーがメッセージを送信

例：「カメラに映っているものを教えて」

2. AI AgentがMCPサーバーにリクエスト

Raspberry Pi AI Camera MCP Serverから物体検出結果を取得
メタデータ形式で受信（画像データは受け取らない）

3. メタデータを解釈

「horse（馬）が信頼度68%で検出された」
画像内における位置情報を理解

4. コンテンツ生成アクションの実行

検出したオブジェクトをベースに画像生成

5. ユーザーに応答

自然言語での説明 + 生成した画像

5.4 実行例

Raspberry Pi AI Cameraでうつした画像。

n8nで作成したワークフローと、最終処理結果。

シナリオ：カメラが馬を検出し、そのメタデータを元に新しいビジュアルを生成


Input: 
カメラ検出結果 → {"label": "horse", "confidence": 0.68, ...} 

Agent Processing: 
1. MCPサーバーからメタデータ取得 
2. LLMが「馬が映っている」と理解 
3. 画像生成APIに指示 

Output: 
「カメラには馬が映っています（信頼度68%）。 
この検出結果をもとに、リアルな馬の画像を生成しました。」 
+ [生成された画像]

5.5 このアプローチの意義

このワークフローは、実際のユースケースと紐付いて構築されたものではありませんが、AIエージェントに対して、以下の能力を統合的に実行させる能力を与えているといえます。：

知覚（Perception）：センサーからのリアルタイムデータ取得
理解（Understanding）：LLMによるメタデータの解釈
創造（Creation）：検出情報をベースにした新しいコンテンツ生成

n8nのようなビジュアルツールを使うことで、ノーコードでこうした高度なAIエージェントシステムを構築でき、「エージェントに知識やツールを与える」というコンセプトを、簡単に行う環境が整5つあることがわかります。

6. まとめ：エージェントネイティブ時代のインフラストラクチャ

MCPを活用することで、エージェントに対して外部ツールや、本事例で示したようにエッジAiセンサーを簡単に追加することができます。例えばこのようなシステムが想定されます。

複数センサーの協調動作

オーケストレーターが各センサーエージェントの特性を理解
タスクに応じて最適なセンサーを選択・配置
センサー間での情報共有と統合判断

タレントマーケットプレイスの実現


Task: 「品質管理システムを構築したい」 
 ↓ 
Marketplace から最適なエージェントを選択： 
├─ Edge AI Camera Agent (物体検出専門) 
├─ VLM Analysis Agent (欠陥検査専門) 
├─ Database Agent (品質データ管理) 
└─ Report Generator Agent (レポート作成) 
         ↓ 
Orchestrator が協調動作を管理 
         ↓ 
実用的な品質管理システムの完成（エッジ × クラウドの最適分業）

本記事で見てきたように、MCPサーバを活用することで、AIエージェントに特定ツールへのアクセスを与え、エッジAIセンサーによる「知覚」をも活用することが容易になりました。エッジAIセンサーとクラウド LLMを組み合わせることで、これまで実現困難だった応用シーンが現実のものとなっています。

Raspberry Pi AI Camera向けMCPサーバーは、近日中にOSSとして公開予定です。ぜひ実際に試して、エージェントに新しい能力を与える体験をしてみてください。