ハーネスエンジニアリング解説レポート:AIエージェント時代の「土台づくり」とは何か

1. 概要

ハーネスエンジニアリング (harness engineering) とは、AIエージェントを単に賢くするのではなく、安全に、安定して、再現可能に仕事をさせるための実行環境・制約・知識・検証ループを設計する実務 を指す言葉です。

AIエージェントは、モデル単体の性能だけでは本番品質の成果を安定して出せません。そこで必要になるのが、以下のような周辺設計です。

  • 何を読ませるか
  • 何のツールを使わせるか
  • どこまで権限を与えるか
  • どのルールを機械的に強制するか
  • どうやって失敗を検出し、次回以降の失敗率を下げるか

この「モデルの外側」を設計する仕事が、ハーネスエンジニアリングです。

2. なぜ注目されているのか

2025年までのAI開発では、prompt engineeringcontext engineering がよく語られてきました。しかし、AIエージェントがコード編集、テスト実行、Web操作、運用監視の参照などを行うようになると、問題は「どう聞くか」だけでは済まなくなります。

現場で本当に効いてくるのは、むしろ次のような設計です。

  • 誤った変更をCIやリンタで止める
  • ドキュメントの所在を構造化して、必要な文脈だけ引けるようにする
  • ログ、メトリクス、ブラウザ状態をエージェント自身に読ませる
  • レビュー、自己修正、再試行のループを作る
  • 同じ失敗を繰り返したら、プロンプトではなく環境側を改善する

要するに、エージェント運用が本格化すると、モデルを賢く使う技術 から、モデルが失敗しにくい職場を作る技術 に重心が移ります。これが最近この言葉が伸びている理由です。

3. ハーネスとは何か

英語の harness は、もともと馬具や安全帯の意味があります。比喩としては、

  • モデル が馬のような強力だが制御しにくい動力
  • 人間 が目的を与える操縦者
  • ハーネス が、その力を有用な方向へ拘束し、導く仕組み

という関係です。

AIエージェント文脈でのハーネスは、だいたい次を含みます。

  • コンテキスト設計
    AGENTS.md、設計書、運用ルール、参照ドキュメント、タスク分解指針
  • ツール設計
    ファイル編集、テスト、ブラウザ、監視、Issue/PR操作、社内APIなど
  • 制約設計
    権限、アーキテクチャ境界、禁止コマンド、依存ルール、コード所有境界
  • 検証設計
    lint、test、CI、構造テスト、eval、レビューエージェント
  • 改善ループ
    失敗を見つけたら、次に同じ失敗をしにくくするためのルールやツールを追加する

4. ハーネスエンジニアリングの中核発想

確認できた最初期の定義で重要なのは、Mitchell Hashimoto が 2026年2月5日のブログで述べた次の考え方です。

エージェントがミスしたら、そのミスを二度と起こしにくくする仕組みを作る。

これは「毎回うまく促す」よりも、失敗から環境改善へ反映する という発想です。
そのため、ハーネスエンジニアリングは単なるプロンプト調整ではなく、むしろ以下に近いです。

  • 開発者体験の設計
  • 品質保証の自動化
  • 制約付きランタイム設計
  • ナレッジベース運用
  • 監視とフィードバックの仕組み化

5. 典型的な構成要素

実務でのハーネスは、概ね次の5層に分けて整理できます。

5.1 指示と知識

  • AGENTS.md やタスク別ガイド
  • 設計思想、禁止事項、コーディング規約
  • どの資料を読めばよいかを示す索引

ポイントは、巨大な一枚岩ドキュメントではなく、短い入口と、必要に応じて深掘れる構造化知識 にすることです。

5.2 ツールと実行環境

  • シェル、ファイル操作、ブラウザ、Web検索、MCP、監視系クエリ
  • エージェント専用の補助スクリプト
  • 再現しやすいローカル環境、sandbox、権限制御

エージェントは「能力の大半をツール経由で発揮する」ため、モデル改善よりツール改善の方が効く場面が多いです。

5.3 制約と境界

  • 依存方向の固定
  • ディレクトリ単位の責務分離
  • 編集禁止領域
  • 危険操作の承認フロー

これは人間向けの設計原則ではなく、エージェントが逸脱しにくいよう機械的に効かせる のが重要です。

5.4 検証と評価

  • 単体テスト、E2E、lint、型検査
  • エージェントの自己レビュー
  • 回帰テスト
  • eval harness による継続評価

ここでいう evaluation harness は古くからある近縁概念で、Anthropic も 2026年1月の記事で、eval を端から端まで回す基盤として使っています。

5.5 フィードバックとガベージコレクション

  • 古くなった文書の検出
  • ルール違反コードの自動修正提案
  • 過去の失敗を元にしたガイド更新

OpenAI は 2026年2月11日の記事で、こうした継続補修を「entropy and garbage collection」として明示しています。これは、エージェント導入後に特に重要になる運用論点です。

6. Context Engineeringとの違い

context engineering は主に、モデルに何を見せるか の設計です。
一方で harness engineering は、モデルを取り囲む実行システム全体 の設計です。

整理すると次の関係です。

  • Prompt engineering
    どう指示を書くか
  • Context engineering
    どの情報を、どの順序で、どの粒度で見せるか
  • Harness engineering
    情報、ツール、制約、検証、改善ループをどう構成するか

したがって、context engineering はハーネスの一部ですが、全体ではありません。

7. 実務では何を作る仕事になるのか

ハーネスエンジニアリングは抽象語に見えますが、実際にはかなり具体的です。典型的には次のような仕事になります。

  • AGENTS.md を短く保ち、詳細は docs/ に分割する
  • エージェントが使う専用コマンドやスクリプトを追加する
  • レイヤ違反や危険変更を止めるカスタムlintを作る
  • PRごとに自己レビューと追加レビューを自動実行する
  • UI、ログ、メトリクスをエージェントが直接読めるようにする
  • 失敗例をルール・文書・スクリプトに還元する

この意味では、ハーネスエンジニアは「モデルを調教する人」ではなく、エージェントが働く職場環境を設計する人 に近いです。

8. 誰が言い出したのか

ここは厳密に分ける必要があります。

8.1 harness という語自体は新しくない

harness はソフトウェア工学では昔から test harnessevaluation harness として使われてきました。AI分野でも、Anthropic は 2025年9月29日の Claude Agent SDK 記事で、Claude Code を支える仕組みを agent harness と呼んでいます。

つまり、「ハーネス」という語そのもの は以前からありました。

8.2 harness engineering をAIエージェント実務の名称として打ち出した最初期の確認可能ソース

確認できた一次情報ベースでは、Mitchell Hashimoto が 2026年2月5日に公開したブログ My AI Adoption Journey が最初期の明確なソース です。彼はその中で、

  • Step 5: Engineer the Harness
  • 「業界で広く定着した言葉があるか分からないが、自分はこれを harness engineering と呼ぶようになった」

と書いています。

このため、「誰が言い出したか」に対して最も正確なのは、

  • 用語を広く定着させた最初期の確認可能発信者は Mitchell Hashimoto

です。

ただし、より厳密には、

  • harness という語はそれ以前から存在
  • agent harness という言い方も 2025年には確認できる
  • harness engineering というまとまった実務概念として可視化したのが Hashimoto

という言い方が安全です。

8.3 拡散に効いた発信

その後の普及には少なくとも次が効いています。

  • OpenAI の 2026年2月11日記事 Harness engineering: leveraging Codex in an agent-first world
  • Thoughtworks / Martin Fowler系 の 2026年2月17日記事 Harness Engineering

特に OpenAI 記事は、「人間はコードを書く人から、環境・意図・フィードバックループを設計する人へ役割が移る」という実例付きで、用語の普及を一段押し上げました。

9. この言葉をどう捉えるべきか

現時点では harness engineering は、厳密に定義が固定した学術用語ではありません。実務家が急速に共有し始めた新語に近く、範囲は人によって多少違います。

ただし、少なくとも共通している核はあります。

  • モデル単体最適化では足りない
  • 周辺システムの設計が品質を決める
  • 失敗をその場で直すだけでなく、次回失敗しにくい仕組みに還元する

この3点が共有されている限り、細かな定義差よりも実務上の価値はかなり大きいと言えます。

10. まとめ

ハーネスエンジニアリングとは、AIエージェントを本番で役立つ存在にするための 環境設計・制約設計・知識設計・検証設計・改善ループ設計 です。最近注目されているのは、エージェント導入が進むほど、モデル性能そのものより ハーネスの良し悪し が成果を左右することが見えてきたからです。

「誰が言い出したか」については、確認できた一次情報では、Mitchell Hashimoto が 2026年2月5日に harness engineering という言い方を明確に提示したのが最初期の有力ソース です。一方で、harnessagent harness という語自体はそれ以前から存在していました。したがって、最も正確には Hashimoto がこの言葉をAIエージェント実務の名称として可視化・普及させた と整理するのが妥当です。

11. 引用・参照元


作成日: 2026-03-13
著者AIモデル: OpenAI Codex (GPT-5)