LangChain vs LlamaIndex: プロが教える最適解

「LLM（大規模言語モデル）を活用したいけど、LangChainとLlamaIndexって何が違うの？どっちを選べばいいの？」
そんな疑問をお持ちではないでしょうか？私は10年以上の現場経験を持つリードエンジニアとして、多くのプロジェクトでLLMを活用してきました。その経験から、LangChainとLlamaIndexの本質的な違いと、最適な使い分けを徹底解説します。この記事を読めば、あなたはもう二度と技術選定で迷うことはありません。

結論: ユースケースで選べ！
基本的な解説
1. LangChainとは
2. LlamaIndexとは
【重要】よくある失敗とアンチパターン
【重要】現場で使われる実践的コード・テクニック
1. LangChain: 複数のAPI連携
2. LlamaIndex: 特定のファイル形式を扱う
類似技術との比較
まとめ

結論: ユースケースで選べ！

LangChainとLlamaIndexは、どちらもLLMを活用するための強力なライブラリですが、得意分野が異なります。ざっくり言うと、

LangChain: LLMを「オーケストレーション」することに特化。複雑なタスクを組み立てたり、外部ツールと連携したりするのが得意。
LlamaIndex: LLMに「データ」を繋げることに特化。社内ドキュメントやWebサイトなど、様々なデータをLLMが理解できるようにするのが得意。

つまり、あなたのやりたいこと（ユースケース）に合わせて選ぶべきです。

基本的な解説

LangChainとは

LangChainは、LLMを活用したアプリケーション開発を容易にするためのフレームワークです。LLMを個々の部品として捉え、それらを組み合わせて複雑な処理を実現します。例えば、チャットボット、ドキュメント要約、データ分析など、幅広いユースケースに対応できます。

LangChainの主な機能は以下の通りです。

モデル I/OF (Model I/O): LLMへの入出力の管理
チェーン (Chains): 複数の処理を連結して実行
データ拡張 (Data Augmented Generation): 外部データソースからの情報をLLMに提供
エージェント (Agents): 外部ツールを活用して自律的にタスクを実行
コールバック (Callbacks): 各処理の実行状況を監視

LlamaIndexとは

LlamaIndexは、LLMに外部データを簡単に統合するためのライブラリです。社内ドキュメント、Webサイト、データベースなど、様々なデータをインデックス化し、LLMが理解できるように変換します。これにより、LLMはより正確でコンテキストに即した回答を生成できます。

LlamaIndexの主な機能は以下の通りです。

データコネクタ (Data Connectors): 様々なデータソースからのデータロード
データインデックス (Data Indexes): データをLLMが扱いやすい形式に変換
クエリエンジン (Query Engines): インデックス化されたデータに対するクエリ
チャットインターフェース (Chat Interfaces): LLMとの会話

【重要】よくある失敗とアンチパターン

アンチパターン1: 「とりあえず全部LangChainで実装する」

LangChainは強力ですが、全てをLangChainで解決しようとするのは間違いです。特に、データ検索がメインのタスクの場合、LlamaIndexの方が圧倒的に効率的です。LangChainで同じことをやろうとすると、無駄に複雑なコードになり、パフォーマンスも悪化します。

例えば、社内ドキュメントに基づいて質問応答を行うチャットボットを構築する場合、LlamaIndexの`VectorStoreIndex`を使うのが最適解です。LangChainの`RetrievalQA`を使うこともできますが、LlamaIndexの方がシンプルで高速です。

修正例: データ検索がメインの場合は、LlamaIndexを優先的に検討する。

アンチパターン2: 「LlamaIndexで複雑なタスクを実装する」

LlamaIndexはデータ統合に特化しているため、複雑なタスクを実装するには不向きです。例えば、複数の外部APIを連携させたり、複雑なロジックを実装したりする場合は、LangChainの方が柔軟に対応できます。

修正例: 複雑なタスクは、LangChainの`Chain`や`Agent`を使って実装する。

アンチパターン3: エラーハンドリングを怠る

LLMのAPIは不安定な場合があり、エラーが発生することがあります。エラーハンドリングを怠ると、アプリケーションが突然停止したり、誤った情報を提供したりする可能性があります。特に、本番環境で利用する場合は、必ずエラーハンドリングを実装してください。

修正例: try-exceptブロックを使ってエラーをキャッチし、適切なログを出力する。

【重要】現場で使われる実践的コード・テクニック

LangChain: 複数のAPI連携

LangChainを使用して、複数の外部APIを連携させる例を紹介します。ここでは、OpenWeatherMap APIで天気情報を取得し、さらにWikipedia APIでその場所に関する情報を取得して、LLMに統合的に質問します。実際のプロジェクトでは、APIキーの設定が必要になりますので、ご注意ください。

from langchain.agents import initialize_agent, Tool
from langchain.agents import AgentType
from langchain.llms import OpenAI
from langchain.chains import APIChain
from langchain.utilities import OpenWeatherMapAPIWrapper, WikipediaAPIWrapper
import os

os.environ["OPENAI_API_KEY"] = "YOUR_OPENAI_API_KEY"  # 実際のAPIキーに置き換えてください
os.environ["OPENWEATHERMAP_API_KEY"] = "YOUR_OPENWEATHERMAP_API_KEY" # 実際のAPIキーに置き換えてください

llm = OpenAI(temperature=0)

# OpenWeatherMap APIの準備
weather = OpenWeatherMapAPIWrapper()
weather_chain = APIChain.from_llm_and_api_docs(
    llm,
    weather.docs,
    weather.api_url,
    verbose=True
)

# Wikipedia APIの準備
wikipedia = WikipediaAPIWrapper()

def wikipedia_search(query):
    return wikipedia.run(query)

# ツール定義
tools = [
    Tool(
        name="OpenWeatherMap",
        func=weather_chain.run,
        description="特定の場所の現在の天気情報を取得するために使用します。入力は場所である必要があります。",
    ),
    Tool(
        name="Wikipedia",
        func=wikipedia_search,
        description="特定の場所に関する情報をWikipediaから取得するために使用します。入力は場所である必要があります。",
    ),
]

# エージェントの初期化
agent = initialize_agent(
    tools,
    llm, #温度設定は省略
    agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION, #エージェントタイプの指定
    verbose=True,
)

# 質問の実行
try:
    result = agent.run("東京の天気はどうですか？また、東京に関する情報を教えてください。")
    print(result)
except Exception as e:
    print(f"エラーが発生しました: {e}")

この例では、`OpenWeatherMapAPIWrapper`と`WikipediaAPIWrapper`を使って、それぞれ天気情報と場所に関する情報を取得します。`APIChain`を使ってAPIをLangChainに統合し、`initialize_agent`を使ってエージェントを初期化しています。エージェントは、質問に応じて適切なツールを選択し、複数のAPIを連携させて回答を生成します。このように、LangChainを使うことで、複数のAPIを組み合わせて複雑なタスクを簡単に実装できます。

LlamaIndex: 特定のファイル形式を扱う

LlamaIndexを使って、特定のファイル形式（ここではPDF）のデータをインデックス化し、LLMで質問応答を行う例を紹介します。PDFファイルは、`PyPDFLoader`を使ってロードします。

from llama_index import VectorStoreIndex, SimpleDirectoryReader
from llama_index.readers.file.pdf import PDFReader
import os

os.environ["OPENAI_API_KEY"] = "YOUR_OPENAI_API_KEY" # 実際のAPIキーに置き換えてください

# PDFファイルを配置するディレクトリ
docs_dir = "./data"

# サンプルPDFファイルの作成（実際にはPDFファイルを配置してください）
if not os.path.exists(docs_dir):
    os.makedirs(docs_dir)
    # 簡単なPDFファイルを作成する例（reportlabを使用）
    from reportlab.pdfgen import canvas
    from reportlab.lib.pagesizes import letter
    filepath = os.path.join(docs_dir, "example.pdf")
    c = canvas.Canvas(filepath, pagesize=letter)
    c.drawString(100, 750, "Example PDF Document")
    c.drawString(100, 730, "This is a sample PDF document for LlamaIndex.")
    c.save()

# PDFファイルをロード
documents = SimpleDirectoryReader(docs_dir, filename_as_id=True).load_data()

# インデックスを作成
index = VectorStoreIndex.from_documents(documents)

# クエリエンジンを作成
query_engine = index.as_query_engine()

# クエリを実行
response = query_engine.query("このPDFドキュメントの内容は？")

print(response)

この例では、まず`SimpleDirectoryReader`を使ってPDFファイルをロードします。PDFReaderを直接使うことも可能です。`VectorStoreIndex.from_documents()`を使ってインデックスを作成し、`index.as_query_engine()`を使ってクエリエンジンを作成しています。そして、`query_engine.query()`を使って質問を送信し、結果を表示します。このように、LlamaIndexを使うことで、PDFファイルだけでなく、様々なファイル形式のデータをLLMに統合できます。テキスト抽出が難しいPDFの場合は、OCR処理を組み込むことで、より正確な質問応答が可能になります。

類似技術との比較

技術	LangChain	LlamaIndex	特徴
得意分野	LLMオーケストレーション、複雑なタスク	LLMデータ統合、検索	目的に応じて選択
柔軟性	高い	中程度	より複雑な要件に対応
使いやすさ	中程度	高い	データ統合に特化
学習コスト	高い	低い	基本的な概念を理解しやすい
コミュニティ	活発	活発	情報収集が容易

まとめ

LangChainとLlamaIndexは、LLMを活用するための強力なライブラリですが、それぞれ得意分野が異なります。LangChainはLLMのオーケストレーションに、LlamaIndexはLLMへのデータ統合に特化しています。ユースケースに合わせて最適なライブラリを選択することで、より効率的にLLMアプリケーションを開発できます。この記事が、あなたの技術選定の一助となれば幸いです。