コンテンツにスキップ

AIに指示するときは「会話」しない方が良い理由【マイクロソフト論文解説】

  • URL: https://www.youtube.com/watch?v=EXeAz57X8-U
  • 文字起こし日: 2026-02-24 02:53

内容概要

  • AIへの指示は、会話形式(マルチターン)よりも、一回の指示(シングルターン)の方が精度が高い。
  • 会話形式で指示を与えると、AIは初期段階で仮説を立て、それに引きずられる傾向がある。
  • シングルターンとは、必要な情報をすべて一回のやり取りで伝える方法。
  • マルチターンとは、人間同士の会話のように、複数回やり取りをしながら情報を伝える方法。
  • 実験結果から、マルチターンの会話ではAIの能力は少ししか落ちないが、会話の信頼性が大幅に低下する。
  • AIは、会話の初期段階で誤った解釈をし、それを修正することが苦手である。
  • 何か頓珍漢になってきたなと感じたら、新しいチャットを開いて仕切り直すのが良い。
  • なるべく最初のプロンプトに指示の要件をまとめる(お願したいこと、その背景、制約条件、参考情報など)。
  • チャットを切り替える際、これまでに伝えたことをまとめて次のチャットにコピーすると良いスタートが切れる。
  • 単純な質問やアイデア出しの壁打ち相手になってもらうような緩いコミュニケーションの時は神経質にならなくても大丈夫。

文字起こし

今回は、AI を使う時に会話はしないで一発で指示を伝えようという話をしていきます。 皆さんも AI と長々と話していった時に、なんか精度落ちてる気がするとか、どうも同じところでぐるぐるして解決に行かないなとか感じたことはないでしょうか? 今回はそんな感覚を証明してくれたマイクロソフトと Salesforce のリサーチャーたちによる論文、LLM は複数ターンの会話で迷子になるから得られる学びを誰にでも分かりやすく解説していきます。 この論文の中では AI は会話的に指示、つまりは段階的に要件を与えていくと、回答の安定性が大きく下がるという結論が述べられています。 一体なぜ AI は会話の中で要件を飲み込んでいくのが苦手なのでしょうか? またそんな性質を受けて我々はどう AI と付き合えばいいのでしょうか? そんな内容を解説していきます。 AI の力をより引き出す考え方なのでぜひ最後まで見てより良く AI を活用できるようになりましょう。 本題の論文の内容に入る前に重要な用語として、シングルターンとマルチターンとは何かを解説します。 シングルターンとは AI に対して1回のやり取りで必要な情報を全て伝えて指示を出すやり方です。 対してマルチターンとは人間同士が会話するように AI と複数回やり取りをしながら徐々に情報を伝えたり指示を修正したりしていくやり方です。 私の場合は AI にお願いしてから、あ、こんな観点もあったなと気づいたり、AI の言う通りにやってみたところ問題が起きたりした時に発生します。 それでは用語を説明したところで論文の内容に入って行きますと結論としては、マルチターンの会話で AI の能力そのものは少ししか落ちないけれど、会話の信頼性がガクンと下がることがわかったという内容です。 そしてこの傾向は特定の AI だけでなく、最近の賢いモデルたち ChatGPT の OS 3 クロード 3.7 ジェミニー 2.5 Pro など全ての AI で観測されました。 能力と信頼性とは具体的に何かを解説しますとこの論文で言う能力というのは AI がどれだけ良い回答を出せるかというポテンシャルのことです。 もう少し厳密に言うとこの論文中では 90% タイルつまりはたくさんテストした中での上位 10% の境界となるスコアの値を使っています。 一方で信頼性は同じ指示でも回答が良い時と悪い時のブレ幅がどれくらいあるかという安定性の指標です。 この10%タイルと90%タイルのスコアの差分のことを信頼性と呼んでいてこの差分が小さければ常に同程度の品質の回答をしてくれているし、大きければいい時もあれば悪い時もたくさんあって不安定ということです。 先程の能力そのものは少ししか落ちないけれど会話の信頼性がガクンと下がるとはつまりたまにベストに近い結果を出すけど回答の質にばらつきがありすぎて信用ならんとなるということですね。 それでは次にこの結果を得た実験はどんなものだったのかをご紹介します。 論文の目的はシングルターンとマルチターンの会話で応答の精度がどれくらい変わるかを見ることで、そこで同じタスクに対してシングルターンで完璧な情報を渡す場合とその完全な情報を分解して渡していった場合とで比較を行いました。 具体例をお見せするとシングルターンのテストでは全ての情報が入ったプロンプトが作られマルチターンのテスト用にはこれをいくつかの情報に分解して順に会話で伝えていきます。 この分解された情報をどう渡していくかもいくつかの方法を用意していて、1つ目はランダムに1つずつ渡していくだけの小分け指示、2つ目は断片化されたものを何も工夫せずにそのままつなげるまとめ指示。 シングルターンの時と違いが分かりづらいかもしれないのですがまとめ指示の場合は断片化した文章を何も工夫せずに一気に伝えるので文章同士のつながりはありません。 3つ目は1つずつ情報を渡していって最後に全てをまとめたものを渡すおさらい。 最後4つ目はだんだん指示を増やして完璧な指示に近づけていく雪だるま式。 こうしていろんな方法を試すことによってより正確にマルチターン会話の性能を比較することができるわけですね。 かつこのそれぞれの戦略をコーディングや数学、要約などの様々なカテゴリーの問題で検証していきます。 それでは早速その実験の結果のスコアがこちらです。 左から順番にシングルターンまとめ指示小分け指示のスコアが表示されています。 おさらいとか雪だるま式もあったと思いますがそちらのスコアは後ほどお見せします。 全体を見てみるとまとめ指示ではそこまでスコアが落ちてないですが小分け指示はめちゃくちゃ下がっています。 もう少し具体的に ChatGPT の OS 3 やジェミニ 2.5 Pro などの最新最強モデルたちに注目してみましょう。 どのジャンルのテストでもマルチターンの場合にスコアが大きく下がっています。 全体の平均としても39%もスコアが落ちてるのだとか。 これは少なくとも現状の AI たちに対しては特定のモデルだけでなく LM 全般的にマルチターンで段階的に要件を掴んでいくのが苦手と結論づけて良さそうです。 ちなみに復習や雪だるま式でもスコアは多少良くなるもののシングルターンと比較すると大きく劣後しています。 それではなぜこのようにマルチターンだと回答の不安定性が増す事態が起きるのでしょうか? 論文によると AI は会話の最初の方で、多分こういうことを言いたいのか なと勝手に解釈しある種の仮説を立てそして一度その仮説ができるとそれにものすごく引っ張られてしまうということが起きていると説明しています。 会話の初期段階では AI が持っている情報が非常に少なく、人間であればもう少し詳しく教えてと確認するところですが AI はそれでも何とか答えようとして不足している情報を補うために自分なりに推測や仮定を立ててしまう傾向があります。 けなげですね。 そして1度 AI が自分で初期の回答を生成してしまうと、その後の会話で新しい情報がユーザーから提示されても最初に自分が立てた仮説や出した回答に強く影響され、それを修正したり間違っていたことにしたりすることが非常に苦手のようです。 それでは次にこの学びを前提にどう AI と付き合っていくのが良いかを考えていきましょう。 この AI はマルチターンの会話が苦手という性質が分かったところで、では我々は AI を使っていく時にどのような対策を打てばいいのでしょうか? まず1つになんか頓珍漢になってきたなと感じたら新しいチャットを開きましょう。 先ほど解説したように AI は最初に自分が作った仮説に頑固になりがちなので、無理に会話を続けて修正しようとするよりも思い切って新しいチャットで仕切り直した方が結果的に早くそして質の高い回答を得られることが多いです。 まあ AI にも気分転換が必要ということでしょうか。 次に特に新しいチャットを開く時にやっておきたいのがなるべく最初のプロンプトに指示の要件をまとめるです。 お願いしたいこと、その背景、制約条件、参考情報など伝えたいことはできるだけ最初のプロンプトに詰め込みましょう。 これに対してはマークダウンやヤムルなどのフォーマットでしっかりと構造化して伝えるのが有効です。 そうすることで AI はより意図を具体的に理解できるようになります。 またこれは論文中で紹介されている方法でもありますがチャットを切り替える時にこれまでに私が伝えたことを全部まとめてと伝えてそれをコピーして次のチャットに移るといいスタートが切れます。 複雑な要件の指示はこれらのような工夫を知って AI の力を引き出していきましょう。 以上 AI の精度を上げるために基本的には会話でなく一発の指示を心掛けるのが大事という話をしてきました。 ただいつもそんなにガチガチに考えなくてもいい場面もあります。 例えば単純な質問をしたり、ちょっとしたアイデア出しの壁打ち相手になってもらったりするような緩いコミュニケーションの時はそこまで神経質にならなくても大丈夫です。 私も動画の台本をジェミニーと壁打ちしている時は結構ダラダラと会話しますがそんなに不満を感じないです。 今回の話は特に AI に正確なアウトプットを求めたり、複雑な作業を依頼したりする時により効果を発揮する考え方だと思ってください。 要は使い分けですね。 以上で動画は締めますが今回初の試みで論文解説をしてみたのでためになったとか難しすぎたなどあればコメントで教えてください。 一定評判良さそうならまたいろんな人に示唆があるだろうと感じた論文を見かけた時に解説してみようと思います。 それでは今回の動画ためになったらチャンネル登録と高評価をお願いします。 また次回の動画で。