Langfuse v4 で LLM アプリを計測・改善する — Sessions / Users / Scores 実践ガイド

Zenn / 2026/4/21

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

共有:

要点

Langfuse v4 を用いて LLM アプリの利用状況（Sessions / Users）と品質指標（Scores）を計測し、改善サイクルを回す方法を整理している
どの単位でログ・計測データを捉えるか（セッションやユーザー単位の設計）を意識して、分析しやすい形に落とし込む
スコアリング（Scores）を設定して、モデル/プロンプト/実装の変更が成果に与える影響を比較できるようにする
収集した計測データを基に、問題箇所の特定から改善方針の決定までを実践的に進めるためのガイドになっている

はじめに LLM アプリケーションを作っていると、必ず遭遇する壁があります。プロンプトを変えたけど、本当に精度が上がったのか分からないユーザーから「なんか最近おかしい」と言われたが、どの呼び出しが悪かったか追えないコストが膨らんでいるが、どのユーザー・どの機能が重いのか見えない最初は print() でログを出していたのが、logging に移り、そのうち SQLite に書き始め、気づけば自前の「なんちゃって LLMOps 基盤」を作っている……というのがよくある成り行きです。筆者もそうでした。この記事では、Langfuse v4 を使って LLM アプリに「計測と改...

この記事の続きは原文サイトでお読みいただけます。

原文を読む →

Black Hat USA

AI Business

Capsule Securityがシード資金700万ドルでステルスから浮上

Dev.to

Agent Package Manager（APM）：再現可能なAIエージェントのためのDevOpsガイド

Dev.to

実開発でClaude、GPT-4o、Geminiをベンチマークして学んだ3つのこと

Dev.to

DifyがベクターストアとしてIRISに対応—セットアップガイド

Dev.to

Langfuse v4 で LLM アプリを計測・改善する — Sessions / Users / Scores 実践ガイド

要点

関連記事

Black Hat USA

Capsule Securityがシード資金700万ドルでステルスから浮上

Agent Package Manager（APM）：再現可能なAIエージェントのためのDevOpsガイド

実開発でClaude、GPT-4o、Geminiをベンチマークして学んだ3つのこと

DifyがベクターストアとしてIRISに対応—セットアップガイド

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer