AIエージェント、生成AIによる開発関係の国際会議、ジャーナル

ML

(o3による)

Q:langchain,langsmith,langgraph及びAIエージェントに関してこれらの分野のトップカンファレンス、ジャーナルを教えてください。

A:▼ 研究コミュニティの全体像
LangChain/LangGraph/LangSmithのような LLM オーケストレーションや AI エージェント研究は、①基盤モデル/機械学習、②NLP と LLM エンジニアリング、③自律エージェント/マルチエージェント、④MLOps・システム、⑤ソフトウェア工学の 5 レイヤーにまたがります。以下では各レイヤーで “トップ会議” と “代表的ジャーナル” を挙げます。

1)基盤モデル・機械学習(LLM の核技術)

カテゴリ主要カンファレンス代表的ジャーナル
生成モデル全般NeurIPS (Neural Information Processing Systems) (https://neurips.cc/Conferences/2024) / ICML (International Conference on Machine Learning) (https://icml.cc/?utm_source=chatgpt.com)/ ICLR (International Conference on Learning Representations)(https://iclr.cc/)JMLR (Journal of Machine Learning Researc (https://www.jmlr.org/?utm_source=chatgpt.com)/ Machine Learning (Springer) / Nature Machine Intelligence

2)NLP・LLM エンジニアリング

カテゴリ主要カンファレンス代表的ジャーナル
大規模言語モデル応用ACL (Annual Meeting of the Association for Computational Linguistics)(https://2024.aclweb.org/), EMNLP(https://2024.emnlp.org/), NAACL(https://2025.naacl.org/), EACL(https://2024.eacl.org/), COLING(https://lrec-coling-2024.org/)TACL (Transactions of the ACL) (https://transacl.org/index.php/tacl) / Computational Linguistics(https://direct.mit.edu/coli)

3)自律エージェント & マルチエージェント

カテゴリ主要カンファレンス代表的ジャーナル
エージェント理論・協調AAMAS (Autonomous Agents & Multi-Agent Systems) oaicite:4 / AAAI (Main + ワークショップ “Advancing LLM-Based Multi-Agent Collaboration”) oaicite:5 / IJCAIAutonomous Agents and Multi-Agent Systems (Springer) [oa (NeurIPS 2024 Call for Papers) Artificial Intelligence (AIJ) / Journal of Artificial I (2025 Conference)h (JAIR)

4)AI システム・MLOps/LLMOps

カテゴリ主要カンファレンス代表的ジャーナル/業界誌
LLM 運用・最適化MLSys (Machine Learning & Systems), USENIX OSDI / SOSP / NSDI, Data + AI Summit (Databricks) oaicite:7Patterns (Cell Press), IEEE Software
LLMOps 特化イベントLLMOps Summit(米国・欧州各地で開催) oaicite:8

5)ソフトウェア工学・プログラミング実践

カテゴリ主要カンファレンス代表的ジャーナル
LLM 組込み SW 開発ICSE (International Conf. on Software Engineering), FSE (ACM Foundations of Software Engineering), ASE (Automated Software Engineering)ACM TOSEM (Trans. on Software Engineering & Methodology), Empirical Software Engineering

補足 — ワークショップ & 新興トラック

  • ICLR 2025 Workshop “Reasoning & Planning for LLMs” は LangGraph/Agent 系研究が多数採択予定 workshop-llm-reasoning-planning.github.io
  • システム寄りの LLM as Autonomous Agents ワークショップ(Harvard DSI 2025 冬季)など、大学・企業主催の小規模イベントも今年急増中 YouTube
  • 目的
    まず狙う venue
    新しいエージェント・アルゴリズムの提案
    AAMAS / AAAI-Agent系WS
    LangChain/LangGraph 実装研究+スケール実験
    MLSys / LLMOps Summit
    LLM 生成品質やプロンプト設計の理論検証
    NeurIPS / ICML / ICLR
    多言語対応・NLP 技法の論文化
    ACL ファミリー / TACL
    エンジニアリング実践・ツールチェーン
    ICSE / ASE / FSE

Q:AIを使用するソフトウエア開発の分野を研究する分野のトップカンファレンス、ジャーナルを教えてください。

A:なぜ分野が分かれるのか

AI-支援ソフトウェア開発(Code-LLM・ペアプログラミングアシスタント・自動テスト生成など)は

  1. 1)ソフトウェア工学 (SE)、2) プログラミング言語/コンパイラ (PL)、3) 開発者 UX・HCI、4) AI/ML 本体――の4レイヤーをまたいで研究されています。
    以下では、それぞれで「トップ会議」と見なされる国際会議/ジャーナルを列挙します。
  2. 1)ソフトウェア工学(SE)フラッグシップ
推奨度カンファレンスメモ
★★★ICSE (Intl. Conf. on Software Engineering)2025年大会でも“AI for Code”セッションが設置 oaicite:0
★★★ESEC/FSE (FSE)LLMによるコード翻訳・仕様生成などの採択が急増 oaicite:1
★★☆ASE (Automated SE)自動化ツールに特化。LLM評価論文が毎年多数 oaicite:2
★★☆ISSTA (SW Testing & Analysis)LLMを用いたテスト自動生成・デバッグ研究が活発 ISSTA 2024

2)プログラミング言語・コンパイラ/ツール

推奨度カンファレンス最新動向
★★★PLDI2024年は「LLM×静的解析」論文が登場 (https://pldi24.sigplan.org/details/SOAP-2024-papers/2/Interleaving-Static-Analysis-and-LLM-Prompting?utm_source=chatgpt.com)
★★★OOPSLA (SPLASH)“Self-Refine Code Generation”などCode-LLM枠が定着 oaicite:5
★★☆POPL / ECOOP / ISMM形式手法+LLMやプログラム合成系の話題が増加中

3)開発者体験・HCI

推奨度カンファレンス
★★★CHI (Human Factors)LLMベースの IDE アシスタントやプロンプトUX論文が多数 (https://dl.acm.org/doi/proceedings/10.1145/3706598?tocHeading=heading79&utm_source=chatgpt.com)
★★☆UIST / VL HCCインタラクティブコード補完、視覚デバッグの新UIを扱う

4)AI/ML × ソフトウェア工学クロスオーバー

カテゴリ代表 venue
汎用AINeurIPS – 2024・2025 とも “Code LLM / LLM Agents for SWE” ポスターが採択 (https://neurips.cc/virtual/2024/poster/93642?utm_source=chatgpt.com)
ワークショップ系ML4SE / ML4Code(ICSE併設)、LLM4SE(FSE併設)、AI Safety for Agentic Code(NeurIPS W)など

5)主要ジャーナル(査読付き論文)

ランクジャーナル最近のLLM関連特集/論文
A*IEEE TSE (Trans. on SE)コミットメッセージ生成などLLM実証研究 oaicite:8
A*ACM TOSEM“AI in SE” 連続特集セクションを開設 oaicite:9
AEMSE (Empirical SE)“Advancing SE with LLMs” 特集号を2025年受付中 oaicite:10
AAutomated Software EngineeringFoundation-Model特集でCode-LLM論文募集 SpringerLink
B+Journal of Systems & Software
“Reliable & Secure LLMs for SE” 特集 サイエンスダイレクト

Q:前者の分野の重要な論文、最新で注目を集めている論文を5つあげてください。

A:以下の 5 本は、2024 年後半〜2025 年春に発表(あるいはプレプリント公開)され、LangChain/LangGraph/LangSmith が関わる 5 レイヤー(基盤モデル → ソフトウェア工学)をそれぞれ代表する “いま注目度が高い” 研究です。リンク先で PDF・コード・デモも公開されているので、実装検証や講義資料づくりにすぐ使えます。

レイヤー論文(発表年・会議)主要アイデア & 理由
① 基盤モデル/MLPersonalized Adaptation via In-Context Preference Learning arXiv Oct 2024(PPT) oaicite:0「個別ユーザ好み」を RLHF なしで インコンテキスト学習 に落とし込む手法。汎用 LLM を プロンプト+数ステップのフィードバックだけでパーソナライズでき、ChatGPT-plug-in 型エージェントにそのまま応用可能。
② NLP/LLMエンジニアリンGraph of Thoughts: Solving Elaborate Problems with LLMs
AAAI 2024 oral arXiv
Chain-of-Thought をさらに一般化し、LLM が出す「思考」を 任意グラフで管理。LangGraph での動的経路生成や LangChain の multi-step tool use Prompt に転用され、今も引用が急増。
③ 自律/マルチエージェントAgentBench: Evaluating LLMs as Agents
ICLR 2024 (best paper runner-up) GitHub
8 環境・77 タスクの 総合ベンチ。RAG+ツール呼び出し+Web 操作といった LangChain-Agent の現実ユースケースを網羅し、各モデルの“行動計画”を可視化するアノテーションも公開。
④ MLOps/システムAgentOps: Enabling Observability of LLM Agents
arXiv Nov 2024 arXiv
“DevOps × LLM-Agent” 視点で トレーシング対象を全ライフサイクルで体系化。LangSmith(Tracing API)や OpenTelemetry との連携事例を含み、評価指標の標準化まで提案。
⑤ ソフトウェア工学(AI コーディング支援)CYCLE: Learning to Self-Refine the Code Generation
OOPSLA 2024 (SPLASH) arXiv
生成コードを自動実行→フィードバックを自己ループに取り込み “自己改良する Code-LLM” を実証。Cursor + Claude Sonnet 3.7 のような IDE 補完に組み込みやすく、HumanEval で SOTA。

Q:後者の分野で以下の分野の重要な論文、最新で注目を集めている論文を5つあげてください

A:

#レイヤー (主領域)論文・発表先コアアイデア & なぜ注目か
1ソフトウェア工学 (SE)CYCLE ― Learning to Self-Refine the Code Generation
OOPSLA 2024 (SPLASH) arXivACM Digital Library
生成コードをテスト実行→フィードバック→自己ループでバグを自動修正するフレームワーク。HumanEval などで SOTA を達成し、「LLM + CI テスト連携」の研究を一気に加速。
2プログラミング言語/コンパイラ (PL)Interleaving Static Analysis and LLM Prompting
PLDI 2024 PLDI 2024
既存の静的解析が苦手な“曖昧ケース”だけを LLM にオフロードし、解析精度と計算コストを両立。LLM を“補助解析器”に使う発想が PL 研究コミュニティで波及中。
3開発者 UX・HCIMaking AI Coding Assistants Useful for Accessible Web Development
CHI 2025 Yi-Hao Peng
16 名の実開発者スタディで Copilot/Claude を評価し、アクセシビリティ指針を自動注入する拡張機能 CodeA11y を提案。AI アシスタントの UX 改善と DEI(包摂性)を両立させた点が高評価。
4AI/ML 本体(Code-LLM)StarCoder 2 and The Stack v2: The Next Generation
arXiv Feb 2024 ― NeurIPS’24 予定稿 arXiv
4 兆トークンで学習した 15 B パラメータ LLM が CodeLlama-34B を凌駕。透明なデータ公開と OpenRAIL ライセンスで、学術・企業双方に“実験しやすい SOTA”を提供。
5品質保証・テスト (SE × AI Safety)ASTRAL: Automated Safety Testing of Large Language Models
ISSTA 2025 Tool Demo ResearchR
LLM の有害出力を網羅的にトリガーする新しい Black-box カバレッジ基準を導入。マイクロサービス構成で CI パイプラインに組み込みやすく、企業の“AI ガバナンス”需要で急速に引用中。

Q:以下の研究課題1~5に対してのコメントと、関連する最新または重要な論文を調査してください。
・推論と計画におけるより広範なトピックの探求:
上記の中心テーマに加えて、私たちの議論では、次のような幅広い新興トピックも取り上げます。

1.因果推論: LLM はパターン認識を超えて因果関係を推測するにはどうすればよいでしょうか?
2.マルチエージェントシステムにおける協調推論: LLM はどのようにして分散タスクのマルチエージェント協力を可能にするのでしょうか?
3.不確実性と堅牢性: LLM はあいまいな情報の下でどのように推論を改善できるでしょうか?
4.ヒューマンインザループシステム:人間によるフィードバックによって、LLM の意思決定プロセスをどのように改善できるでしょうか?
5.説明可能性: LLM の推論と計画を現実世界のアプリケーションに対してより透明かつ解釈可能にするにはどうすればよいでしょう

以下では ①〜⑤の研究課題ごとに 現状の論点/オープン課題 を簡潔に整理し、2024 後半〜2025 春に公開された 「いま引用が伸びている or フラッグシップ会議で採択済み」主要論文 5 本 を紹介します。各論文は実装コードやデータが公開済みなので、LangChain や LangGraph での再現実験や講義資料づくりにも直結します。

研究課題コメント(挑戦点・今後の方向)注目論文
1. 因果推論LLM は観測データの相関学習が中心で、介入効果や反実仮想を扱う構造的推論には弱い。最近は 「言語モデル自体を因果推論器にする」 (対照プロンプト、介入的データ拡張) と 「LLM を伝統的因果推論パイプラインの補助に使う」 (図モデル生成、バックドア判定など) の二方向で研究が進行。CausalEval: Towards Better Causal Reasoning in Language Models — 多面的ベンチと 6 種の介入タスクで GPT-4/Claude-3 を比較し、言語連鎖だけでは真の因果推論に到達しないことを定量化。​(https://arxiv.org/abs/2410.16676?utm_source=chatgpt.com)
2. マルチエージェント協調推論「一人の万能 LLM」ではなく、専門特化エージェントが 自己反省+交互レビュー で協調する枠組みが主流に。課題は (i) 役割分担の自動最適化、(ii) 収束保証、(iii) コミュニケーションコスト最小化。(CausalEval: Towards Better Causal Reasoning in Language Models)ve Multi-Agent Collaboration based on Large Language Models** — “提案→自己反省→再提案” サイクルで協調精度を 17 %↑、NeurIPS 2024 採択。​(https://proceedings.neurips.cc/paper_files/paper/2024/file/fa54b0edce5eef0bb07654e8ee800cb4-Paper-Conference.pdf)
3. 不確実性と堅牢性LLM は一見流暢でも 信頼度が過大。自己検証型プロンプトや温度操作は限定的で、近年は **“生成の自己一致 (Self-Consistency)” を数理的に用いたキャ (Reflective Multi-Agent Collaboration based on Large Language …)シフト下でのロバスト評価ベンチが拡充中。Calibrating Large Language Models with Sample Consistency — 9 種の推論データセットで、一貫性メトリクスが従来手法より大幅にキャリブレーション誤差を削減。AAAI 2024。​(https://arxiv.org/abs/2402.13904?utm_source=chatgpt.com)
4. ヒューマンインザループRLHF の代替として Direct Preference Optimization (DPO) 系が台頭。課題は (Calibrating Large Language Models with Sample Consistency)限界。そこで ステップ単位でフィードバックを集める Step-DPOアクティブ学習で効率化 などの改良が続く。Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs — 手順ごとの好みを学習し、GSM8K の長手順計算で DPO を 6 pt 改善。arXiv 2024。​(https://arxiv.org/abs/2406.18629?utm_source=chatgpt.com)
5. 説明可能性 (XAI)CoT が「推論の証跡」として使われる一方、その**忠実性 (faith (Step-wise Preference Optimization for Long-chain Reasoning of LLMs)あり。メカニスティック解釈 (回路可視化) と 生成過程の因果トレース を組み合わせる動きが加速。Tracing the Thoughts of a Large Language Model(Anthropic)— 内部アクティベーションを “中間言語” に直訳してステップ間の因果依存を分析、計算タスクで「真の思考」と “ハリネズミ的ハック” を切り分け。2025 3月公開。​(https://www.anthropic.com/research/tracing-thoughts-language-model?utm_source=chatgpt.com)

Q:langchain,langsmith,langgraph及びAIエージェントに関して最新の研究での課題を10個あげてください。angchain,langsmith,langgraph及びAIエージェントに関して最新の研究での課題を10個あげてください。

A:

以下に、LangChain・LangSmith・LangGraphという主要フレームワークと、LLMベースのAIエージェント全般について、2024〜2025年の論文・公式ブログ・業界レビューで挙げられている「研究課題/オープンな問題」を10項目に整理しました。

  1. API の頻繁なブレーク変更と長期サポート不足
    LangChain 0.1→0.3 の間で仕様が立て続けに変わり、再現性・運用保守性が低下。フレームワーク自体の“長期安定ブランチ”をどう設計するかが議論中です。​Medium
  2. 依存関係の肥大化とパフォーマンス・ビルドサイズへの影響
    “何でも入っている”抽象レイヤーが便利な反面、インポートだけで数百 MBのバイナリになる例も報告され、軽量化とモジュール化が課題。​Medium
  3. LangGraph の“自律性の壁”――動的ゴール生成・自己再構成能力の不足
    現状はグラフノードに静的に書いたタスクしか実行できず、実行途中の学習・リプランニングが難しいという批判が出ています。​Medium
  4. 評価ベンチマークと指標の標準化
    LangSmith がエージェント評価 API を提供しているものの、タスク網羅性・ゴールドデータ整備が追いつかず、学術サイドからも「共通ベンチ」の欠如が指摘されています。​docs.smith.langchain.comarXiv
  5. マルチステップ・ツール使用エージェントの可観測性(Observability)とデバッグ難易度
    LangSmith のトレーシングや OpenTelemetry 連携が進む一方、ステップ数が増えるほどログの量も爆発し、根本原因解析が依然大きな手間です。​🦜️🔗 LangchainRestack
  6. “協調的マルチエージェント”における行動の収束性と emergent behavior の制御
    AutoGen などで示されたエージェント協調の有効性は注目されていますが、役割設計を誤るとパフォーマンス劣化や無限ループが発生する課題が未解決です。​WIRED
  7. 高自律ブラウザエージェントの安全性・攻撃耐性
    Operator 型エージェントを使ったフィッシング PoC や資格情報流出デモが報告され、認可スコープ管理・ユーザー確認フローの強化が急務となっています。​ダークリーディングWorkOS — Your app, Enterprise Ready.Reuters
  8. フレームワーク間の互換性と標準 API の不在
    LangChain/LangGraph、OpenAI Agents SDK、AutoGen などがそれぞれ独自オーケストレーションを持ち、ツールチェーンが断片化。相互運用やプラグイン互換の標準策定が求められています。​journalwjaets.comSSRN
  9. 推論コストとレイテンシ最適化、そして観測基盤のオーバーヘッド
    高頻度の LLM 呼び出しとトレーシングを両立しようとするとコストが跳ね上がる。OpenTelemetry 連携でも追加レイテンシが報告されており、軽量計測手法の研究が進んでいます。​LangChain BlogMedium
  10. データプライバシーとガバナンス――外部ツール呼び出し時の機密情報流出リスク
    Web 操作系エージェントが実ユーザートークンで外部サービスにアクセスするシナリオでは、最小権限・MFA 介入などの新しい認可パターンが提案されています。​Stytch – A better way to build authWorkOS — Your app, Enterprise Ready.
最新情報をチェックしよう!