ハーネスエンジニアリング解説レポート：AIエージェント時代の「土台づくり」とは何か

1. 概要

ハーネスエンジニアリング (harness engineering) とは、AIエージェントを単に賢くするのではなく、安全に、安定して、再現可能に仕事をさせるための実行環境・制約・知識・検証ループを設計する実務 を指す言葉です。

AIエージェントは、モデル単体の性能だけでは本番品質の成果を安定して出せません。そこで必要になるのが、以下のような周辺設計です。

何を読ませるか
何のツールを使わせるか
どこまで権限を与えるか
どのルールを機械的に強制するか
どうやって失敗を検出し、次回以降の失敗率を下げるか

この「モデルの外側」を設計する仕事が、ハーネスエンジニアリングです。

2. なぜ注目されているのか

2025年までのAI開発では、prompt engineering や context engineering がよく語られてきました。しかし、AIエージェントがコード編集、テスト実行、Web操作、運用監視の参照などを行うようになると、問題は「どう聞くか」だけでは済まなくなります。

現場で本当に効いてくるのは、むしろ次のような設計です。

誤った変更をCIやリンタで止める
ドキュメントの所在を構造化して、必要な文脈だけ引けるようにする
ログ、メトリクス、ブラウザ状態をエージェント自身に読ませる
レビュー、自己修正、再試行のループを作る
同じ失敗を繰り返したら、プロンプトではなく環境側を改善する

要するに、エージェント運用が本格化すると、モデルを賢く使う技術 から、モデルが失敗しにくい職場を作る技術 に重心が移ります。これが最近この言葉が伸びている理由です。

3. ハーネスとは何か

英語の harness は、もともと馬具や安全帯の意味があります。比喩としては、

モデル が馬のような強力だが制御しにくい動力
人間が目的を与える操縦者
ハーネス が、その力を有用な方向へ拘束し、導く仕組み

という関係です。

AIエージェント文脈でのハーネスは、だいたい次を含みます。

コンテキスト設計
AGENTS.md、設計書、運用ルール、参照ドキュメント、タスク分解指針
ツール設計
ファイル編集、テスト、ブラウザ、監視、Issue/PR操作、社内APIなど
制約設計
権限、アーキテクチャ境界、禁止コマンド、依存ルール、コード所有境界
検証設計
lint、test、CI、構造テスト、eval、レビューエージェント
改善ループ
失敗を見つけたら、次に同じ失敗をしにくくするためのルールやツールを追加する

4. ハーネスエンジニアリングの中核発想

確認できた最初期の定義で重要なのは、Mitchell Hashimoto が 2026年2月5日のブログで述べた次の考え方です。

エージェントがミスしたら、そのミスを二度と起こしにくくする仕組みを作る。

これは「毎回うまく促す」よりも、失敗から環境改善へ反映する という発想です。
そのため、ハーネスエンジニアリングは単なるプロンプト調整ではなく、むしろ以下に近いです。

開発者体験の設計
品質保証の自動化
制約付きランタイム設計
ナレッジベース運用
監視とフィードバックの仕組み化

5. 典型的な構成要素

実務でのハーネスは、概ね次の5層に分けて整理できます。

5.1 指示と知識

AGENTS.md やタスク別ガイド
設計思想、禁止事項、コーディング規約
どの資料を読めばよいかを示す索引

ポイントは、巨大な一枚岩ドキュメントではなく、短い入口と、必要に応じて深掘れる構造化知識 にすることです。

5.2 ツールと実行環境

シェル、ファイル操作、ブラウザ、Web検索、MCP、監視系クエリ
エージェント専用の補助スクリプト
再現しやすいローカル環境、sandbox、権限制御

エージェントは「能力の大半をツール経由で発揮する」ため、モデル改善よりツール改善の方が効く場面が多いです。

5.3 制約と境界

依存方向の固定
ディレクトリ単位の責務分離
編集禁止領域
危険操作の承認フロー

これは人間向けの設計原則ではなく、エージェントが逸脱しにくいよう機械的に効かせる のが重要です。

5.4 検証と評価

単体テスト、E2E、lint、型検査
エージェントの自己レビュー
回帰テスト
eval harness による継続評価

ここでいう evaluation harness は古くからある近縁概念で、Anthropic も 2026年1月の記事で、eval を端から端まで回す基盤として使っています。

5.5 フィードバックとガベージコレクション

古くなった文書の検出
ルール違反コードの自動修正提案
過去の失敗を元にしたガイド更新

OpenAI は 2026年2月11日の記事で、こうした継続補修を「entropy and garbage collection」として明示しています。これは、エージェント導入後に特に重要になる運用論点です。

6. Context Engineeringとの違い

context engineering は主に、モデルに何を見せるか の設計です。
一方で harness engineering は、モデルを取り囲む実行システム全体 の設計です。

整理すると次の関係です。

Prompt engineering
どう指示を書くか
Context engineering
どの情報を、どの順序で、どの粒度で見せるか
Harness engineering
情報、ツール、制約、検証、改善ループをどう構成するか

したがって、context engineering はハーネスの一部ですが、全体ではありません。

7. 実務では何を作る仕事になるのか

ハーネスエンジニアリングは抽象語に見えますが、実際にはかなり具体的です。典型的には次のような仕事になります。

AGENTS.md を短く保ち、詳細は docs/ に分割する
エージェントが使う専用コマンドやスクリプトを追加する
レイヤ違反や危険変更を止めるカスタムlintを作る
PRごとに自己レビューと追加レビューを自動実行する
UI、ログ、メトリクスをエージェントが直接読めるようにする
失敗例をルール・文書・スクリプトに還元する

この意味では、ハーネスエンジニアは「モデルを調教する人」ではなく、エージェントが働く職場環境を設計する人 に近いです。

8. 誰が言い出したのか

ここは厳密に分ける必要があります。

8.1 `harness` という語自体は新しくない

harness はソフトウェア工学では昔から test harness や evaluation harness として使われてきました。AI分野でも、Anthropic は 2025年9月29日の Claude Agent SDK 記事で、Claude Code を支える仕組みを agent harness と呼んでいます。

つまり、「ハーネス」という語そのもの は以前からありました。

8.2 `harness engineering` をAIエージェント実務の名称として打ち出した最初期の確認可能ソース

確認できた一次情報ベースでは、Mitchell Hashimoto が 2026年2月5日に公開したブログ My AI Adoption Journey が最初期の明確なソース です。彼はその中で、

Step 5: Engineer the Harness
「業界で広く定着した言葉があるか分からないが、自分はこれを harness engineering と呼ぶようになった」

と書いています。

このため、「誰が言い出したか」に対して最も正確なのは、

用語を広く定着させた最初期の確認可能発信者は Mitchell Hashimoto

です。

ただし、より厳密には、

harness という語はそれ以前から存在
agent harness という言い方も 2025年には確認できる
harness engineering というまとまった実務概念として可視化したのが Hashimoto

という言い方が安全です。

8.3 拡散に効いた発信

その後の普及には少なくとも次が効いています。

OpenAI の 2026年2月11日記事 Harness engineering: leveraging Codex in an agent-first world
Thoughtworks / Martin Fowler系 の 2026年2月17日記事 Harness Engineering

特に OpenAI 記事は、「人間はコードを書く人から、環境・意図・フィードバックループを設計する人へ役割が移る」という実例付きで、用語の普及を一段押し上げました。

9. この言葉をどう捉えるべきか

現時点では harness engineering は、厳密に定義が固定した学術用語ではありません。実務家が急速に共有し始めた新語に近く、範囲は人によって多少違います。

ただし、少なくとも共通している核はあります。

モデル単体最適化では足りない
周辺システムの設計が品質を決める
失敗をその場で直すだけでなく、次回失敗しにくい仕組みに還元する

この3点が共有されている限り、細かな定義差よりも実務上の価値はかなり大きいと言えます。

10. まとめ

ハーネスエンジニアリングとは、AIエージェントを本番で役立つ存在にするための 環境設計・制約設計・知識設計・検証設計・改善ループ設計 です。最近注目されているのは、エージェント導入が進むほど、モデル性能そのものより ハーネスの良し悪し が成果を左右することが見えてきたからです。

「誰が言い出したか」については、確認できた一次情報では、Mitchell Hashimoto が 2026年2月5日に harness engineering という言い方を明確に提示したのが最初期の有力ソース です。一方で、harness や agent harness という語自体はそれ以前から存在していました。したがって、最も正確には Hashimoto がこの言葉をAIエージェント実務の名称として可視化・普及させた と整理するのが妥当です。

11. 引用・参照元

Mitchell Hashimoto: My AI Adoption Journey
OpenAI: Harness engineering: leveraging Codex in an agent-first world
Anthropic: Building agents with the Claude Agent SDK
Anthropic: Demystifying evals for AI agents
Thoughtworks / Martin Fowler: Harness Engineering

作成日: 2026-03-13
著者AIモデル: OpenAI Codex (GPT-5)