「Tool LLM」:10倍強力なAIモデルがオンラインサービスやツールと連携し、16,000以上のAPIを駆使してタスクを実行!

今回のテーマ:Tool LLM, Gorilla

ここでは、大規模言語モデル (LLM) を活用して生成した記事を投稿しています.自動生成記事のクオリティと信頼性を向上させるためにアルゴリズムの改善に取り組んでいます.

Tool LLMの強力さ

AIの世界は、大規模な自然言語モデル(LLM)というツールによって揺さぶられました.LLMはただの別のAIモデルではありません.それは有名なGorilla AIモデルを圧倒するタイタンです.LLMは他のモデルよりも10倍強力です.つまり、他のモデルにはない機能を持っています.具体的には、LLMは実世界のRESTful APIと連携することに長けています.これは、多くのオンラインサービスやツールとAPIを介して通信することができるということです.例えば、Google Mapsに道順を尋ねたり、Spotifyに指示を出すことができます.ToolLLMは、LLMが外部ツール(API)を使用するための人間の指示に従うという高度なタスクを実行する能力において、オープンソースのLLMやその派生物であるLLaMAやVicunaよりも著しく優れています.

オープンソースの大規模言語モデル(LLM)と外部ツールの制限

オープンソースのLLMやその派生物の進歩にもかかわらず、外部ツールの使用には制限があります.現在の指示の調整は基本的な言語タスクに焦点を当てているため、制限が生じています.これは、最先端のLLMであるChatGPTなどが優れたツールの使用能力を示している一方で、クローズドソースであるために利用できないという状況と対照的です.オープンソースのLLMでツールの使用能力を向上させるために、ToolLLMでは、データの構築、モデルのトレーニング、評価という一連のプロセスを実施します.まず、ChatGPTを使用して自動的に作成されたツール使用のための指示調整データセットであるToolBenchを扱います.具体的には、RapidAPI Hubから49のカテゴリにわたる16,464の現実世界のRESTful APIを収集し、それらを使用した多様な人間の指示をChatGPTにプロンプトします.

Tool LLMの連携能力

ユーザーの簡単な言語からAPIを理解し、オンラインサービスやツールと連携できる能力は、実世界のRESTful APIとの連携が得意なためです.この能力は、大規模なデータセットで学習したデータツール「ToolBench」によって可能になっています.ToolBenchは、メタ、マイクロソフト、スタンフォード大学、UCバークレーの専門家が協力して作成した16,000以上のAPIに関する情報を含むデータセットです.2023年8月に、ToolBenchの研究成果が発表されました.ToolBenchの目標は、AIモデルがさまざまな実世界のAPIを効果的に使用できるようにすることであり、これは簡単な言語の指示とToolBenchデータセット内の適切なAPI呼び出しをペアにした特別なデータセットを使用して行われます.ToolBenchは単なるAPIのセット以上のものであり、指示や解決策も含まれています.

Tool LLMの学習データセット

16,000以上のAPIに関する情報を含むデータセット「Tool Bench」から学習することで、APIの手順や解決策も含めて、最適な使用方法を決定するために Depth-First Search Decision Tree「DFSDT」と呼ばれる決定木を使用します.チームは、各APIについてChatGPTを使用して、ガイドラインや例から明確な手順を作成しました.その後、人々にこれらのAPIのステップバイステップの使用方法を示してもらいました.これらのステップは、DFSDTと呼ばれる決定木として表示され、ToolLLMがAPIを最適に使用する方法を見つけるのに役立ちます.ですので、あなたがToolLLMに簡単な言葉で何かを尋ねると、Tool Benchのデータを参照して適切なAPIを見つけます.そして、DFSDTを使用して、尋ねた内容に最適なAPIアクションを選択します.その後、アクションを実行し、結果を理解できる形式で提供します.それは驚くべきことですが、それだけではありません.ToolLLMは既知のAPIだけでなく、新しいAPIも学ぶことができます.もしToolLLMに見たことのないAPIを示すと、ガイドラインを見ることでそれを使用する方法を学ぶことができます.

Tool LLMの機能

ユーザーの言語から適切なAPIを見つけ出し、タスクを実行するために、Tool LLMは重要な役割を果たします.Tool LLMは、UCバークレーとマイクロソフトリサーチによって開発された大規模な言語モデルで、GitHubで無料で利用できます.このモデルは、一般的な言語の指示が与えられた場合にAPI呼び出しを作成することができます.Tool LLMは、torch Hub、tensorflow Hub、hugging facehubなどの主要な機械学習ソースのデータに基づいています.これらのソースには、コンピュータビジョン、音声認識などのトピックをカバーする多くのAPIがあります.

また、Tool LLMは、新しいウェブツールやサービスにも対応することができます.これにより、ユーザーが常に最新のツールを利用できるようになります.

一方、現在の言語モデルは、基本的な言語タスクに焦点を当てており、ツールの使用というより高度なタスク(人間の指示の理解や適切なツールとの対話など)にはあまり適していません.そのため、オープンソースのツールを活用することが重要です.Tool LLMは、APIリトリーバーによって関連するAPIを推奨し、複数のAPI呼び出しを行い、最終的な結果を導き出します.この過程は、ツール評価によって評価されます.

この研究は、実践的なシナリオで多様なAPIを活用して複雑な指示を実行するために、オープンソースの言語モデルを強化することを目指しています.我々は、この研究が指示調整とツール使用の交差点でさらなる研究を促進することを期待しています.

Tool LLMの知識

GorillaAIモデルよりも大きく、より多くの知識を持つTool LLMは、さまざまなトピックについての知識を持ち、複雑な課題に対応することができます.Tool LLMは、オンラインの変化や更新についての情報を取得するための特別なシステムに依存しており、最新の情報を取得するために常に最新のテキストブックを参照する必要があります.しかし、Tool LLMは素早く学習することができるため、新しいガイドや例を与えるとすぐに利用できるようになります.これにより、常に変化するオンラインの世界に適応する能力が高まります.そのため、サイズ、範囲、機能性の面でTool LLMはGorillaAIモデルよりも明らかに優れています.Tool LLMはGorillaAIモデルの10倍の大きさであり、他のモデルではできないことを実現できます.これは間違いなくAIの未来であり、Tool LLMはAIの未来を担う存在となるでしょう.

GorillaAIモデルとTool LLMの比較

最新の情報を取得するための特別なシステムに依存している.新しいガイドや例を与えるだけで学習し、オンラインの世界の変化に柔軟に適応する.特に、tool LLMと呼ばれるモデルは、多くの利点を持っています.このモデルは、16,000冊以上の書籍を読んだ大きな兄弟のような存在です.一方、gorilla AIモデルは1,700冊の書籍を読んだ学生のような存在です.そのため、tool LLMはより広範な理解力を持ち、より複雑な課題に取り組むことができます.日常的に話すトピックの多様性を考えると、gorilla AIモデルは機械学習の天才ですが、お気に入りの科目にとどまっていると言えます.一方、tool LLMは、さまざまなトピックについて少し知っている友人のような存在です.

Tool LLMの優れた機能

Gorilla AIモデルは、サイズ、範囲、機能の面で非常に優れています.他のモデルではできないことができるため、そのパフォーマンスは非常に注目されています.Gorilla AIモデルは、産業の革命化の可能性を秘めており、その利用は私たちの価値観と倫理に合致するように慎重に考える必要があります.将来の責任ある未来のために、このモデルの利用についての利点と欠点を考慮する必要があります.

Tool LLMの利用分野

教育、医療、エンターテイメント、金融など、さまざまな分野で使用されることが期待されている.Tool LLMは、これらの分野を含む多くの分野で使用されることが期待されています.さらに、Tool LLMはオープンソースであり、それに取り組んでいるコミュニティに参加することで、より良いTool LLMを作るのに役立つことができます.Tool LLMは、GitHub上で見つけることができます.GitHubには、コード、データセットなどがあります.このAIモデルを使用したい場合、Chat GPTやLauraといった仮想アシスタントを使用することができます.また、Webインターフェースもあり、Tool LLMにコマンドを入力したり、話したりすることができます.開発者や技術スキルを持っている場合は、リポジトリをコピーしてモデルを自分のコンピュータで実行することもできます.実行する前に、Python 3.8、PyTorch 1.9、Transformers 4.9、Flask 2.0、Requests 2.26、LTK 3.6、Beautiful Soup 4.9、Gitがインストールされていることを確認してください.

まとめ

  • Tool LLMは、他のAIモデルよりも10倍強力であり、実世界のRESTful APIとの連携が得意です.
  • 大規模なデータセット「Tool Bench」から学習し、APIの手順や解決策を含めた最適な使用方法を決定するために「DFSDT」と呼ばれる決定木を使用します.
  • 既知のAPIだけでなく、新しいAPIも学ぶことができます.
  • ユーザーの言語から適切なAPIを見つけ出し、タスクを実行するために重要な役割を果たします.
  • 新しいウェブツールやサービスにも対応することができます.
  • 現在の言語モデルは、高度なタスクにはあまり適していないため、Tool LLMのようなオープンソースのツールを活用することが重要です.
  • この研究は、オープンソースの言語モデルを強化して、実践的なシナリオで多様なAPIを活用して複雑な指示を実行することを目指している.
  • Tool LLMは、GorillaAIモデルよりも大きく、より多くの知識を持ち、オンラインの変化や更新に柔軟に適応することができる.16,000冊以上の書籍を読んだ大きな兄弟のような存在であり、より広範な理解力を持ち、複雑な課題に取り組むことができる.
  • 教育、医療、エンターテイメント、金融など、さまざまな分野で使用されることが期待されている.
  • Tool LLMはオープンソースであり、GitHub上で利用可能であり、コミュニティの参加によってさらに改善されることが期待されている.
  • Tool LLMを使用するためには、PythonやPyTorchなどのソフトウェアが必要であり、Webインターフェースやコマンド入力などの方法で利用することができる.
  • ToolBenchはオープンソースであり、コミュニティによって改善されることができる.
  • ToolBenchの構築プロセスには、APIの収集、指示の生成、およびソリューションパスの注釈付けの3つのステージが含まれる.
  • ToolBenchはChatGPTを使用して完成し、新しいAPIに簡単に拡張できる.
  • RapidAPIはAPIマーケットプレイスであり、多様なサービスとデータソースをアプリケーションに統合するプロセスを効率化する.
  • オープンソースのLLMはまだSOTAのLLMに比べてツールの使用において遅れており、SOTAのLLMがツールの使用能力を獲得する方法は不明である.

参考文献

[1] AI Revolution – This AI is 10X More Powerful than GORILLA AI (Proximate AGI), (2023-08-17). Accessed: 2023-08-18 [Online Video]. Available: https://www.youtube.com/watch?v=DrFb_ogjVk0

[2] Yujia Qin,Shihao Liang,Yining Ye et al., “ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs” arXiv, 2023-07-31 doi: 10.48550/2307.16789v1