AI研究

生体信号×LLMでロボットを動かす――EMG・EEGによるユーザ意図推定とヒューマン・イン・ザ・ループ設計の最前線

2026.06.15

なぜ今、生体信号とLLMの融合が注目されるのか

人間とロボットが協調して作業する場面は、リハビリ支援・製造現場・介護補助など多岐にわたる。しかしロボットが「人の意図」を誤解すれば、安全性が損なわれ信頼も失われる。そこで近年、筋電図（EMG）や脳波（EEG）という生体信号を使ってユーザの意図を推定し、さらに大規模言語モデル（LLM）の高次推論能力を組み合わせることで、従来の単純なコマンド入力を超えた柔軟な人間‐ロボット協調制御を実現しようとする研究が加速している。

本記事では、EMGとEEGそれぞれの特性と相補性、LLMが担う役割、そしてHITL（Human-in-the-Loop）設計の要点を軸に、センサ仕様から信号処理・アルゴリズム比較・実装上の課題まで体系的に整理する。

EMGとEEGはどう違い、なぜ組み合わせるのか

EMG（筋電図）の特徴と限界

EMGは筋肉が収縮する際に発生する電気活動を計測するセンサである。表面電極を上腕二頭筋や前腕屈筋群などの筋腹に貼付し、2〜16チャネル程度で記録する。サンプリングレートはおよそ1kHz、帯域通過フィルタは20〜450Hz程度が一般的だ。

EMGの最大の強みは「筋活動への高い応答性」にある。運動が発現した瞬間に対応した信号が得られるため、リアルタイムな制御には非常に向いている。また非侵襲かつウェアラブルであるため、アシストロボットやリハビリ用途への応用が進んでいる。

一方で、筋疲労によって信号品質が低下すること、皮膚と電極の接触状態（インピーダンス）が変動すること、そして「動作が始まってから」しか信号が取れないため運動前の意図を先読みできないこと――これらが主な弱点となる。

EEG（脳波）の特徴と限界

EEGは頭皮上の複数の電極（国際10-20法に従い16〜64チャネル程度）から脳の電気活動を記録する。サンプリングレートは250〜1000Hz、帯域は0.5〜100Hz程度で、電源ノイズ除去のためのノッチフィルタ（50または60Hz）を適用する。

EEGの最大の利点は「運動前の意図」を検出できることだ。脳内で「腕を動かそう」という指令が下る段階で生じる運動関連皮質電位（MRCP）や運動イメージ（μ波・β波のERD/ERS）を捉えることで、動作が始まる前にロボットへ準備指令を送ることが理論上可能になる。

しかし課題も大きい。信号のSNR（信号対雑音比）が低く、眼電（EOG）や筋電（EMG）によるアーチファクトが混入しやすい。さらに個人差が顕著で、安定した信号を取るまでに相応のキャリブレーション時間が必要となる。

両者を組み合わせることで得られる相補性

EMGの「高応答性・筋特異性」とEEGの「先読み意図検出能力」は互いの弱点を補う関係にある。例えば筋疲労でEMGの品質が低下してきた場面では、EEGの比重を増やすことができる。また、EEGで意図を先読みし、EMGで実際の動作開始を確認する二段階判断も可能となる。研究事例では、EMG単独よりもEEGと組み合わせた場合に、被験者非依存の分類精度が有意に向上したことが報告されている。

センサ信号の前処理と特徴抽出

EMGの前処理と特徴量

取得したEMG信号には外乱ノイズが含まれるため、まず高域ノイズを除去する低域通過フィルタ（カットオフ約400〜500Hz）と、動きアーチファクトやDCドリフトを除く高域通過フィルタ（カットオフ約20Hz）をかける。その後、整流・平滑化（RMSや包絡線計算）と標準化を施し、安定した特徴量を抽出できる状態に整える。

特徴量としては、時間領域（RMS振幅・零交差数・波形長など）、周波数領域（パワースペクトル密度・ウェーブレット係数など）の両者が使われる。動的な制御には短時間フーリエ変換（STFT）による時系列スペクトル解析も有効だ。

EEGの前処理と特徴量

EEGでは、まず50/60Hzのノッチフィルタで電源ノイズを除去し、次に0.5〜100Hzのバンドパスフィルタで目的外の周波数成分を落とす。さらに独立成分分析（ICA）により、眼電（瞬き・眼球運動）などのアーチファクト成分を分離・除去する手順が一般的である。インピーダンス管理と参照電極の設計もEEG固有の重要ポイントだ。

特徴量は、μ波（8〜12Hz）やβ波（13〜30Hz）のパワー変動（ERD/ERS）、事象関連電位（P300やMRCPなど）が中心となる。空間フィルタリング手法である共通空間パターン（CSP）や、EEGNet・DeepConvNetといった深層学習ベースの特徴抽出モデルも広く用いられている。

マルチモダリティ融合のアプローチ

EMGとEEGを組み合わせる融合手法は、大きく三つに分類できる。

早期融合（Feature-level Fusion） は、両信号の特徴量を結合して一つの統合特徴空間を構築したうえで分類器に入力する手法である。実装がシンプルな反面、モダリティ間の次元数・スケールの違いへの対処が必要になる。

遅延融合（Decision-level Fusion） は、EMGとEEGそれぞれに独立した分類器を用意し、その出力（クラス確率など）をベイズ融合や重み付き投票で統合する手法だ。各モダリティを独立に最適化でき、例えば疲労度に応じて動的に重みを変更することで精度向上が報告されている。

ハイブリッド融合 は状況に応じて早期・遅延を切り替える方式で、環境変動や信号品質の変化に柔軟に対応できる。近年では、TEALのように「すべてのモダリティ入力をトークン化してLLMの埋め込み空間に射影する」表現学習的アプローチも登場しており、LLMと融合する方向への発展が見られる。

LLMが果たす役割――信号からコマンドへの橋渡し

生体信号をLLMに入力する表現設計

LLMはもともとテキストを処理するモデルであるため、EMG/EEG信号をそのまま入力することはできない。現在主流のアプローチは、「信号特徴→固定長埋め込み→トークン化」というパイプラインだ。自己符号化器やCNNで得た潜在表現を全結合層でLLMのトークン埋め込み次元に合わせ、テキストプロンプトと連結してLLMに渡す。NAACL 2025の事例では、EEGエンコーダの出力を射影器でLLMの埋め込み空間にマッピングし、LLMがEEG由来の情報を処理できる構造が提示されている。

LLM出力をロボット命令に変換する仕組み

LLMが生成したテキストや構造化出力を実際のロボット制御命令に変換するには、追加の変換層やプランニングモジュールが必要となる。代表的な手法として、GPT-4にPDDL（計画記述言語）のドメイン・問題ファイルを生成させ、PDDLプランナーがロボットのアクション系列を計算するパイプラインが挙げられる。例えばEEGで「悲しみ」の感情状態を検出した場合、GPT生成のPDDL条件に従ってロボットが「人に接近して感情支援の準備をする」アクションをとるよう計画が組まれるといった応用事例が報告されている。

推定アルゴリズムの比較と選択指針

意図推定に使われる主要アルゴリズムを特性別に整理すると、以下のような棲み分けが見えてくる。

従来型機械学習（SVM・LDA等） は、手工特徴量を入力とし、少量データでも動作する点が強みだ。計算コストが低く解釈性も高い。ただし、深層モデルに比べて表現力に限界があり、複雑な非線形パターンの学習は苦手とする。

深層学習（CNN・LSTM等） は、生データから自動で高次特徴を学習できる。大量データがあれば高精度を達成しやすいが、過学習やドメインシフト（被験者・環境が変わると精度低下）への対策が必要で、推論遅延の増大にも注意が要る。

自己教師あり学習（SSL） は、ラベルなしデータで事前学習した潜在表現をタスクに微調整する手法で、大量の未ラベルEEG/EMGデータを活用できる可能性がある。BCI分野への適用はまだ発展途上だが、ドメイン適応性の向上が期待される。

マルチモーダル融合学習 は複数の入力モダリティを同時に処理し、単一モダリティより高い精度と頑健性を実現する。同期誤差や通信遅延といった実装上のリスクへの配慮が必要だ。

LLMファインチューニング／プロンプト設計 は、大規模事前学習モデルを生体信号タスクに転用するアプローチで、チェーン・オブ・ソート推論によって意思決定プロセスを可視化できるという大きな利点がある。一方、モデルが重くリアルタイム性に課題が残る。

評価指標としては、検出精度（意図分類の正解率）に加え、システム全体の遅延（通信・推論時間の合計）、頑健性（ノイズ・筋疲労・個人差への耐性）の三つをバランスよく評価することが重要だ。

ヒューマン・イン・ザ・ループ設計の要点

リアルタイム性とフィードバックループ

HITL制御では、ユーザ意図の取得からロボット応答・フィードバックまでのループを可能な限り短時間で回す必要がある。エンドツーエンドで500ms以下の遅延を達成しながら高い推定精度を維持したシステムの実装例が研究として報告されている。極低遅延を求める場合は、軽量モデルの採用やエッジコンピューティング（ローカルGPU処理）が有効となる。

フィードバックループでは、ロボット動作の視覚・触覚フィードバックによってユーザが現在の状態を把握できるようにし、必要であればジェスチャーや明示的操作で意図を修正できる設計が求められる。

個人適応とキャリブレーション

EEG分類性能には顕著な個人差があることが複数の研究で確認されており、モデルをユーザごとに微調整するパーソナライズ処理や、転移学習による初期キャリブレーション負担の軽減が実用上の重要課題となっている。

安全フェイルセーフの設計

生体信号の品質が急に低下した場合や、推定信頼度が閾値を下回った場合は、ロボットの動作速度を下げるか停止するといったフェイルセーフが不可欠だ。「共有自律化」と呼ばれる手法では、人間の判断が曖昧な局面ではロボット側に制御を委譲し、重要な決定場面ではユーザに介入権を与える階層制御が提案されている。

実装における主な課題と解決の方向性

計算資源 については、LLMの重い推論とリアルタイム信号処理を同時に行うには高い計算能力が必要だ。モデル圧縮・知識蒸留による軽量化や、LLM推論をクラウド・サーバ側で処理して端末と通信する分散構成が選択肢となるが、通信遅延とのトレードオフを慎重に設計する必要がある。

通信遅延 に対しては、有線接続（Ethernet）や低遅延無線（Wi-Fi 6・5G URLLC）の採用、QoS設定によるパケットロス対策が効果的だ。許容遅延範囲をシステム要件として明確に定め、超過時は安全モードへ移行する仕組みを組み込むことが基本となる。

プライバシーと倫理 の観点では、EEG/EMGデータが個人識別や感情情報を含む可能性がある。取得・保存時の暗号化・匿名化は必須であり、GDPRなどの個人情報保護法への準拠と、研究倫理委員会による審査・承認も欠かせない。

規制準拠 については、医療・福祉用途では医療機器認証（ISO 13485等）が求められる場合があり、協働ロボット規格（ISO 10218・ISO 15066）への対応も設計段階から意識する必要がある。

まとめ：生体信号×LLM融合が拓く人間‐ロボット協調の未来

EMGとEEGはそれぞれ独自の強みと弱点を持つが、マルチモダリティ融合によってその弱点を補い合い、単独モダリティよりも高い精度と頑健性が期待できる。さらにLLMを組み込むことで、生体信号から直接ロボット制御命令への変換が可能になり、複雑な文脈を理解した協調制御という新しいパラダイムが生まれつつある。

一方で、リアルタイム性・個人差対応・安全フェイルセーフ・プライバシー保護といった課題は依然として解決途上にある。これらを克服するHITL設計こそが、信頼性の高い人間‐ロボット協調システムを実現する鍵となる。

群ロボットと人間をつなぐ「触覚」——ヒューマン・スウォーム・インタラクション（HSI）の最前線

QBismと多世界解釈は統合できるか？主観的確率論と分岐実在論の対立点を徹底解説

生体信号×LLMでロボットを動かす――EMG・EEGによるユーザ意図推定とヒューマン・イン・ザ・ループ設計の最前線

なぜ今、生体信号とLLMの融合が注目されるのか

EMGとEEGはどう違い、なぜ組み合わせるのか

EMG（筋電図）の特徴と限界

EEG（脳波）の特徴と限界

両者を組み合わせることで得られる相補性

センサ信号の前処理と特徴抽出

EMGの前処理と特徴量

EEGの前処理と特徴量

マルチモダリティ融合のアプローチ

LLMが果たす役割――信号からコマンドへの橋渡し

生体信号をLLMに入力する表現設計

LLM出力をロボット命令に変換する仕組み

推定アルゴリズムの比較と選択指針

ヒューマン・イン・ザ・ループ設計の要点

リアルタイム性とフィードバックループ

個人適応とキャリブレーション

安全フェイルセーフの設計

実装における主な課題と解決の方向性

まとめ：生体信号×LLM融合が拓く人間‐ロボット協調の未来

生成AIの学習・教育の研修についてはこちら

関連記事

因果推論とメタ認知の統合による学習革命：人間とAIが共に進化する新パラダイム

自己修正機構の安定性と収束性：制御理論から強化学習まで設計の核心を解説

対話AIの感情認識と主観性：人間とのより深い相互作用を実現する最新研究動向

LLMの因果推論能力の限界と最新改善手法｜構造的因果モデルとの統合による次世代AI

生体センサーとAIで創作支援を革新する｜リアルタイム感情フィードバック技術の最前線

構造主義から読み解くLLMとのコミュニケーション最適化｜記号・二項対立・文脈設計の実践ガイド

コメント