大規模言語LLMの強化学習

第98回人工知能セミナー「大規模言語モデルのための強化学習」

https://www.ai-gakkai.or.jp/event/ai-seminar/no98_jsai_seminar

があった。

〇おすすめ論文リスト
年月 トピック 論文・レポート/ブログ リンク
・2017 / 06 Transformer 誕生

Attention Is All You Need (Vaswani et al.)

https://arxiv.org/abs/1706.03762

・2018 / 06 GPT‑1

Improving Language Understanding by Generative Pre‑Training (Radford et al.)

https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf

OpenAI
・2019 / 02 GPT‑2

Language Models are Unsupervised Multitask Learners (Radford et al.)

https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

OpenAI
・2019 / 09 RLHF の初期研究

Fine‑Tuning Language Models from Human Preferences (Ziegler et al.)

https://arxiv.org/abs/1909.08593
・2020 / 05 GPT‑3

Language Models are Few‑Shot Learners (Brown et al.)

https://arxiv.org/abs/2005.14165
・2020 / 09 RLHF × 要約

Learning to Summarize from Human Feedback (Stiennon et al.)

https://arxiv.org/abs/2009.01325
・2022 / 03 InstructGPT

Training Language Models to Follow Instructions with Human Feedback (Ouyang et al.)

https://arxiv.org/abs/2203.02155

・2022 / 11 ChatGPT (GPT‑3.5 系) 公開

Introducing ChatGPT(OpenAI Blog)

https://openai.com/index/chatgpt

OpenAI
・2023 / 03 GPT‑4

GPT‑4 Technical Report (OpenAI)

https://cdn.openai.com/papers/gpt-4.pdf

OpenAI

〇ツール

・unsloth

https://github.com/unslothai/unsloth

https://docs.unsloth.ai/get-started/unsloth-notebooks

NO IMAGE
最新情報をチェックしよう!