All Articles

「A Survey on Large Language Model based Autonomous Agents」を読んだメモ

2023 年 8 月の論文「A Survey on Large Language Model based Autonomous Agents」を読んだメモです。

GitHub: https://github.com/Paitesanshi/LLM-Agent-Survey

1 Introduction

Specifically, we organize our survey based on three aspects including the construction, application, and evaluation of LLM-based autonomous agents.

以下の 3 つの観点についてまとめているとのこと。

  • construction
  • application
  • evaluation

For the agent construction, we present a unified framework composed of four components, that is, a profile module to represent agent attributes, a memory module to store historical information, a planning module to strategize future actions, and an action module to execute the planned decisions.

エージェントの構造として、4 つのコンポーネントに整理したフレームワークを提案。

  • profile
  • memory
  • planning
  • action

2 LLM-based Autonomous Agent Construction

2.1 Agent Architecture Design

2.1.1 Profiling Module

profile の作成方法は以下の 3 つ。

  • 手作り
  • LLM で生成
  • 現実のデータセットに基づく

2.1.2 Memory Module

たとえば、短期記憶は context window、長期記憶は vector storage とのこと。

2.1.3 Planning Module

以下の構造に整理。

  • フィードバックなしの計画

    • サブゴールの分解
    • マルチパス思考
    • 外部プランナー
  • フィードバックを伴う計画

    • 環境に関するフィードバック

      • ReAct
    • 人間のフィードバック
    • モデルのフィードバック

2.1.4 Action Module

ここは読み飛ばした。

3 LLM-based Autonomous Agent Application

どんな分野があるかまとめられている。

大きくは以下の 3 分野。

  • 社会科学
  • 自然科学
  • エンジニアリング

4 LLM-based Autonomous Agent Evaluation

4.1 Subjective Evaluation

LLM-based agents have a wide range of applications. However, in many scenarios, there lacks general metrics to evaluate the performance of agents. Some potential properties, like agent’s intelligence and user-friendliness, cannot be measured by quantitative metrics as well. Therefore, subjective evaluation is indispensable for current research.

評価のための一般的な指標が不足しており、定量評価できない特性もあるため、現在の研究では主観的な評価は不可欠としている。

Subjective evaluation refers to the testing of the capabilities of LLM-based agents by humans through various means such as interaction, scoring, and so on.

主観的な評価とは、人間が対話したりスコア付けするものなど。

チューリングテストもある。

主観的な評価に LLM を使うこともできる。

たとえば EvaluatorGPT や ChatEval というものがある。

4.2 Objective Evaluation

客観的な評価の方法もいろいろある模様。

6 Challenges

6.2 Generalized Human Alignment

LLM は人間の正しい価値観で動くよう調整されることが多いが、それではシミュレーション用途で不適切な可能性があるとのこと。

6.5 Knowledge Boundary

人間をシミュレーションするうえでは、LLM は膨大な知識を持ちすぎている。

知識がない想定で意思決定する様子をシミュレーションするときに困る。

感想

エージェントの構成要素を以下の 4 つに整理しているのが分かりやすかった。

  • profile
  • memory
  • planning
  • action

主観的な評価は不可欠だと明言されている点は、こう言われていますと引用しやすい。

課題として、正しい倫理観を持ちすぎることや、知識がありすぎることにより、人間らしいシミュレーションをできない可能性が指摘されているのは面白い。