LLaMA
この記事は英語版の対応するページを翻訳することにより充実させることができます。(2024年1月) 翻訳前に重要な指示を読むには右にある[表示]をクリックしてください。
|
Llama(ラマ、Large Language Model Meta AI)は、Meta が開発している大規模言語モデル(LLM)である[4]。Llama は、2018年以降の言語モデリングの標準的アーキテクチャである Transformer アーキテクチャを採用している。
開発元 | Meta |
---|---|
初版 | 2023年2月24日[1] |
最新版 |
3.3[2]
/ 2024年12月7日 |
リポジトリ | llama-models - GitHub |
プログラミング 言語 | Python |
対応言語 | 英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語[3] |
種別 | 大規模言語モデル |
ライセンス | LLAMA 3.3 COMMUNITY LICENSE AGREEMENT(ソースアベイラブル) |
公式サイト |
www |
名称は当初はLLaMAだったが、2023年7月18日のLlama 2のリリースの際にLlamaに変更になった。[5]
LLaMA (初代)
編集LLaMAの開発者の論文[1]によれば、LLaMAは70億パラメータ(業界の慣習でこれをBillionのBを使って「7B」と書くことがある。以下同様。)から650億パラメータ(65B)まで、いくつものサイズのモデルが作られた。LLaMA-13Bの性能は、GPT-3-175BをほとんどのNLPベンチマークで上回る。そして、LLaMA-65Bの性能は、GoogleのPaLM-540BやDeepMindのChinchilla-70Bなど、当時の最先端モデルに匹敵した。
トレーニングデータ
編集LLaMAの開発者は、パラメータの数ではなく、トレーニングデータの量を増やすことで、モデルの性能を上げることに注力した。 これは、トレーニングプロセスの計算コストより、トレーニング済みモデルによる推論のコストの方が支配的であるためである。
初代のLLaMAは、下記のような公開データソースから抽出した1.4兆個のトークンで学習した。
- コモン・クロールでスクレイピングしたWebページ
- GitHub のオープンソースリポジトリ
- ウィキペディア(20種類の言語)
- プロジェクト・グーテンベルクのパブリックドメインの書籍
- ArXivにアップロードされた科学論文のLaTeXソースコード
- Stack Exchangeウェブサイトの質問と回答
学習済みパラメータのリーク
編集LLaMAは、2023年2月24日、ブログ投稿と論文により発表された。[1]
それまでは、ほとんどの強力な大規模言語モデルは制限のある API を通じてしかアクセスできなかった。Metaは、LLaMAのモデルで学習の結果得られたパラメータを内部管理し、「世界中の学術研究者、政府・市民社会・学術機関の関係者、産業界の研究所にケースバイケースで許可」として、研究コミュニティにだけ非商用ライセンスで利用許可する方針とした。
ところが2023年3月2日、LLaMAのリリースから1週間でその学習済みパラメータが漏れ、4chan経由で拡散されてしまった[6]。
ライセンス
編集バージョンごとにライセンス条項が異なる。
Llama 2のモデルのトレーニングに使用されたコードは、オープンソースのGPLv3ライセンスで公開された[7]。
Llama 3.1~3.3などのライセンスは、ホームページではオープンソースと書かれているが、月間7億アクティブ・ユーザーがいる企業の場合はMetaの利用許可の取得が必要とするなどの条項があるため[8]、オープンソースではなく、ソースアベイラブルである。[9]
訓練データは非公開だが、公開データソースに独自のデータを混ぜた物である。
バージョン
編集名称 | リリース日 | パラメータ | 学習コスト (ペタFLOP日) | コンテキスト長 (トークン) | コーパスサイズ (トークン) | 商業利用 |
---|---|---|---|---|---|---|
LLaMA | 2023年2月24日 |
|
6,300[10] | 2048 | 1–1.4T | No |
Llama 2 | 2023年7月18日 |
|
21,000[11] | 4096 | 2T | 部分的(制限あり) |
Code Llama | 2023年8月24日 |
|
||||
Llama 3 | 2024年4月18日 |
|
100,000[12][13] | 8192 | 15T | |
Llama 3.1 | 2024年7月23日 |
|
440,000[14] | 128,000 | ||
Llama 3.2 | 2024年9月25日 | 128,000[17] | 9T | |||
Llama 3.3 | 2024年12月7日 |
|
128,000 | 15T |
派生モデル
編集Llamaの派生モデルは多数あり、Hugging Faceなどでその学習済みパラメータが公開されている。
Alpaca
編集スタンフォード大学の基盤モデル研究センター(Center for Research on Foundation Models, CRFM)は、2023年3月13日、初代のLLaMA-7Bをファイン・チューニングした、Alpaca をリリースした[18]。Alpaca は OpenAI GPT-3.5シリーズの text-davinci-003モデルに匹敵する性能を獲得した[19]。
訓練手法は、まず175個の入出力のペアのデータを作成し、OpenAIに$500支払い text-davinci-003 を使用して52,000個の訓練データに増やし、クラウドのGPUに$100支払いファインチューニングした。これにより text-davinci-003 と同程度の性能となった。なお、OpenAIはOpenAIのモデルを使用して訓練させることを禁止している。[18]
Stability AI
編集Stability AIは、2023年7月21日にLLaMA-65BをファインチューニングしたStable Beluga 1を、2023年7月27日にLlama 2 70BをファインチューニングしたStable Beluga 2を公開した。[20]
ELYZA LLM for JP
編集ELYZA(本社:東京都文京区)は、2023年8月29日、Llama 2 7Bをベースに日本語性能を強化したELYZA-japanese-Llama-2-7bを公開[21]。2024年6月26日、Llama-3-ELYZA-JP(8Bおよび70B)を公開[22]。2024年10月25日、Llama-3.1-ELYZA-JP-70Bを公開[23]。
サイバーエージェント
編集サイバーエージェントは、2024年7月26日、Llama 3.1 70BをファインチューニングしたLlama-3.1-70B-Japanese-Instruct-2407を公開した[24]。
Sakana AI
編集脚注
編集出典
編集- ^ a b c “Introducing LLaMA: A foundational, 65-billion-parameter large language model”. Meta AI (24 February 2023). 2023年4月1日閲覧。
- ^ “Download Llama”. January 15, 2025閲覧。
- ^ “llama-models/models/llama3_3/MODEL_CARD.md at main · meta-llama/llama-models”. January 17, 2025閲覧。
- ^ Touvron, Hugo; Lavril, Thibaut; Izacard, Gautier; Martinet, Xavier; Lachaux, Marie-Anne; Lacroix, Timothée; Rozière, Baptiste; Goyal, Naman; Hambro, Eric; Azhar, Faisal; Rodriguez, Aurelien; Joulin, Armand; Grave, Edouard; Lample, Guillaume (2023). "LLaMA: Open and Efficient Foundation Language Models". arXiv:2302.13971 [cs.CL3]。
- ^ “llama 2 · meta-llama/llama@6d4c0c2”. January 15, 2025閲覧。
- ^ Vincent, James (8 March 2023). “Meta's powerful AI language model has leaked online — what happens now?”. The Verge. 2023年4月1日閲覧。
- ^ llama - GitHub
- ^ “llama-models/models/llama3_3/LICENSE at main · meta-llama/llama-models”. January 15, 2025閲覧。
- ^ “Llamaライセンス契約のオープンソースへの適合性について”. Shuji Sado. 15 January 2025閲覧。
- ^ “The Falcon has landed in the Hugging Face ecosystem”. huggingface.co. 2023年6月20日時点のオリジナルよりアーカイブ。2023年6月20日閲覧。
- ^ “llama/MODEL_CARD.md at main · meta-llama/llama” (英語). GitHub. 2024年5月28日時点のオリジナルよりアーカイブ。2024年5月28日閲覧。
- ^ “Andrej Karpathy (Apr 18, 2024), The model card has some more interesting info too”. August 17, 2024時点のオリジナルよりアーカイブ。October 20, 2024閲覧。
- ^ “llama3/MODEL_CARD.md at main · meta-llama/llama3” (英語). GitHub. 2024年5月21日時点のオリジナルよりアーカイブ。2024年5月28日閲覧。
- ^ “llama-models/models/llama3_1/MODEL_CARD.md at main · meta-llama/llama-models” (英語). GitHub. 2024年7月23日時点のオリジナルよりアーカイブ。2024年7月23日閲覧。
- ^ Robison, Kylie (2024年9月25日). “Meta releases its first open AI model that can process images” (英語). The Verge. 2024年9月25日閲覧。
- ^ Wiggers, Kyle (2024年9月25日). “Meta's Llama AI models get multimodal” (英語). TechCrunch. 2024年9月25日時点のオリジナルよりアーカイブ。2024年9月25日閲覧。
- ^ “Archived copy”. ai.meta.com. 2024年9月25日時点のオリジナルよりアーカイブ。2024年9月26日閲覧。
- ^ a b stanford alpaca - GitHub
- ^ Yizhong Wang; Yeganeh Kordi; Swaroop Mishra; Alisa Liu; Noah A. Smith; Daniel Khashabi; Hannaneh Hajishirzi (2022年12月20日), “Self-Instruct: Aligning Language Model with Self Generated Instructions” (英語), arXiv, arXiv:2212.10560, ISSN 2331-8422, Wikidata Q117202254
- ^ “Meet Stable Beluga 1 and Stable Beluga 2, Our Large and Mighty Instruction Fine-Tuned Language Models — Stability AI”. Stability AI (21 July 2023). 16 January 2025閲覧。
- ^ “Metaの「Llama 2」をベースとした商用利用可能な日本語LLM「ELYZA-japanese-Llama-2-7b」を公開しました|ELYZA, Inc.”. January 16, 2025閲覧。
- ^ “「GPT-4」を上回る日本語性能のLLM「Llama-3-ELYZA-JP」を開発しました”. ELYZA (2024年6月26日). 2024年6月29日閲覧。
- ^ “ELYZA、Llama 3.1ベースの日本語モデルを開発”. プレスリリース・ニュースリリース配信シェアNo.1|PR TIMES. 16 January 2025閲覧。
- ^ “Xユーザーのサイバーエージェント 広報&IRさん: 「【モデル公開のお知らせ】 Llama 3.1 70Bをベースに日本語データで追加学習を行ったLLMを公開しました。 今後もモデル公開や産学連携を通じて国内の自然言語処理技術の発展に貢献してまいります。 https://t.co/Kbo27kSSAK」 / X”. January 16, 2025閲覧。
- ^ AI, Sakana. “進化的モデルマージによる視覚言語モデルの新たな能力の獲得 複数の画像を扱える日本語視覚言語モデルを公開 - Sakana AI”. sakana.ai. 17 January 2025閲覧。