Llama 2 je sbírka předtrénovaných a vyladěných generativních textových modelů v rozsahu od 7 miliard do 70 miliard parametrů. Toto je úložiště pro vyladěný model 7B, optimalizované pro případy použití dialogů a převedené pro formát Hugging Face Transformers. Odkazy na další modely najdete v rejstříku dole.

Poznámka: Použití tohoto modelu se řídí licencí Meta. Chcete-li si stáhnout modelové váhy a tokenizér, navštivte prosím webovou stránku a přijměte naši licenci, než požádáte o přístup zde.

Společnost Meta vyvinula a veřejně vydala rodinu LLM (Large Language Models) Llama 2, kolekci předtrénovaných a vyladěných generativních textových modelů v rozsahu od 7 miliard do 70 miliard parametrů. Naše vyladěné LLM, nazývané Llama-2-Chat, jsou optimalizovány pro případy použití dialogu. Modely chatu Llama-2-Chat předčí modely chatu s otevřeným zdrojovým kódem ve většině testovaných testů a v našem lidském hodnocení užitečnosti a bezpečnosti jsou na stejné úrovni jako některé oblíbené modely s uzavřeným zdrojovým kódem, jako je ChatGPT a PaLM.

Vývojáři modelů meta

Varianty Llama 2 je k dispozici v řadě velikostí parametrů — 7B, 13B a ​​70B — a také v předtrénovaných a jemně vyladěných variacích.

Vstup Modely pouze zadávají text.

Výstup Modely generují pouze text.

Architektura modelu Llama 2 je auto-regresivní jazykový model, který využívá optimalizovanou architekturu transformátoru. Vyladěné verze používají supervised fine-tuning (SFT) a posílení učení s lidskou zpětnou vazbou (RLHF), aby se přizpůsobily lidským preferencím pro užitečnost a bezpečnost.

Údaje o školení Params Délka obsahu GQA žetony LR
Llama 2 Nový mix veřejně dostupných online dat 7B 4k 2.0T 3.0 x 10 -4
Llama 2 Nový mix veřejně dostupných online dat 13B 4k 2.0T 3.0 x 10 -4
Llama 2 Nový mix veřejně dostupných online dat 70B 4k 2.0T 1.5 x 10 -4

Llama 2 rodina modelů. Počty tokenů se vztahují pouze na data předtrénování. Všechny modely jsou trénovány s globální dávkou o velikosti 4 milionů tokenů. Větší modely – 70B – používají Grouped-Query Attention (GQA) pro lepší škálovatelnost odvození.

Modelová data Llama 2 byl trénován mezi lednem 2023 a červencem 2023.

Status Toto je statický model trénovaný na offline datové sadě. Budoucí verze vyladěných modelů budou vydány, protože díky zpětné vazbě komunity zlepšujeme bezpečnost modelů.

ČTĚTE VÍCE
Proč můj ovladač Range Rover nefunguje?

Zamýšlené případy použití Llama 2 je určena pro komerční a výzkumné použití v angličtině. Vyladěné modely jsou určeny pro chat podobný asistentovi, zatímco předtrénované modely lze upravit pro různé úkoly generování přirozeného jazyka.

Chcete-li získat očekávané funkce a výkon pro verze chatu, je třeba dodržet specifické formátování, včetně značek INST a >, tokenů BOS a EOS a mezer mezi nimi (doporučujeme volat strip() na vstupech, abyste se vyhnuli dvojité mezery). Podrobnosti najdete v našem referenčním kódu v githubu: chat_completion .

Použití mimo rozsah Používejte jakýmkoli způsobem, který porušuje platné zákony nebo předpisy (včetně zákonů o dodržování obchodních předpisů). Používejte v jiných jazycích než v angličtině. Použití jakýmkoli jiným způsobem, který je zakázán Zásadami přijatelného užívání a licenční smlouvou pro Llama 2.

Hardware a software

Tréninkové faktory Pro předškolení jsme použili vlastní školicí knihovny, Meta’s Research Super Cluster a produkční clustery. Jemné ladění, anotace a vyhodnocení byly provedeny také na cloud computingu třetích stran.

Uhlíková stopa Předtrénování využívalo kumulativních 3.3 milionů hodin GPU výpočtu na hardwaru typu A100-80GB (TDP 350-400W). Odhadované celkové emise byly 539 t CO2eq, z nichž 100 % bylo kompenzováno programem udržitelnosti společnosti Meta.

Čas (hodiny GPU) Spotřeba energie (W) Emitovaný uhlík (tCO2ekv)
Lama 2 7B 184320 400 31.22
Lama 2 13B 368640 400 62.44
Lama 2 70B 1720320 400 291.42
Celková cena 3311616 539.00

CO2 emise během předtréninku. Čas: celkový čas GPU potřebný pro trénink každého modelu. Spotřeba energie: Špičkový výkon na zařízení GPU pro použitá GPU upravená pro efektivitu využití energie. 100 % emisí je přímo kompenzováno programem udržitelnosti společnosti Meta, a protože tyto modely otevřeně uvolňujeme, náklady na předškolení nemusí hradit ostatní.

O programu Llama 2 byla předtrénována na 2 bilionech tokenů dat z veřejně dostupných zdrojů. Data doladění zahrnují veřejně dostupné datové sady instrukcí a také více než jeden milion nových příkladů anotovaných člověkem. Předtrénování ani dolaďovací datové sady nezahrnují uživatelská data Meta.

Čerstvost dat Předtréninková data mají uzávěrku na září 2022, ale některá data ladění jsou novější, až do července 2023.

V této části uvádíme výsledky modelů Llama 1 a Llama 2 na standardních akademických benchmarkech. Pro všechna hodnocení používáme naši interní knihovnu hodnocení.

ČTĚTE VÍCE
Jak dlouho vydrží pneumatiky Ram rebelů?
Model Velikost Kód Uvažování zdravým rozumem Světové znalosti Porozumění čtení matematika MMLU bbh AGI Eval
Llama 1 7B 14.1 60.8 46.2 58.5 6.95 35.1 30.3 23.9
Llama 1 13B 18.9 66.1 52.6 62.3 10.9 46.9 37.0 33.9
Llama 1 33B 26.0 70.0 58.4 67.6 21.4 57.8 39.8 41.7
Llama 1 65B 30.7 70.7 60.5 68.6 30.8 63.4 43.5 47.6
Llama 2 7B 16.8 63.9 48.9 61.3 14.6 45.3 32.6 29.3
Llama 2 13B 24.5 66.9 55.4 65.8 28.7 54.8 39.4 39.1
Llama 2 70B 37.5 71.9 63.6 69.4 35.2 68.9 51.2 54.2

Celkový výkon na seskupených akademických benchmarkech. Kód: Uvádíme průměrné skóre pass@1 našich modelů na HumanEval a MBPP. Zdravý rozum: Uvádíme průměr PIQA, SIQA, HellaSwag, WinoGrande, ARC easy and challenge, OpenBookQA a CommonsenseQA. Uvádíme výsledky 7 snímků pro CommonSenseQA a výsledky 0 snímků pro všechny ostatní benchmarky. Světové znalosti: Hodnotíme výkon 5 snímků na NaturalQuestions a TriviaQA a uvádíme průměr. Čtení s porozuměním: Pro porozumění čtení uvádíme průměr 0 snímků na SQuAD, QuAC a BoolQ. MATEMATIKA: Uvádíme průměr srovnávacích testů GSM8K (8 snímků) a MATH (4 snímky) na prvním místě.

Pravdivá QA Toxigen
Llama 1 7B 27.42 23.00
Llama 1 13B 41.74 23.08
Llama 1 33B 44.19 22.57
Llama 1 65B 48.71 21.77
Llama 2 7B 33.29 21.25
Llama 2 13B 41.86 26.10
Llama 2 70B 50.18 24.60

Hodnocení předem vyškolených LLM na automatických bezpečnostních benchmarkech. Pro TruthfulQA uvádíme procento generací, které jsou pravdivé i informativní (čím vyšší, tím lepší). Pro ToxiGen uvádíme procento toxických generací (čím menší, tím lepší).

Pravdivá QA Toxigen
Lama-2-Chat 7B 57.04 0.00
Lama-2-Chat 13B 62.18 0.00
Lama-2-Chat 70B 64.14 0.01

Hodnocení vyladěných LLM na různých souborech bezpečnostních dat. Stejné definice metrik jako výše.

Etická hlediska a omezení

Llama 2 je nová technologie, která s sebou nese rizika při používání. Dosud provedené testování bylo v angličtině a nepokrylo a ani nemohlo pokrýt všechny scénáře. Z těchto důvodů, stejně jako u všech LLM, nelze potenciální výstupy Llama 2 předvídat předem a model může v některých případech vytvářet nepřesné, neobjektivní nebo jiné nežádoucí reakce na výzvy uživatelů. Před nasazením jakékoli aplikace Llama 2 by proto vývojáři měli provést bezpečnostní testování a vyladění přizpůsobené jejich konkrétním aplikacím modelu.

ČTĚTE VÍCE
Jak mohu používat Apple CarPlay na svém Ford Maverick?

Podívejte se prosím na Příručku odpovědného používání, která je k dispozici na https://ai.meta.com/llama/responsible-use-guide/

Nahlaste prosím jakoukoli softwarovou „chybu“ nebo jiné problémy s modely jedním z následujících způsobů:

  • Hlášení problémů s modelem: github.com/facebookresearch/llama
  • Hlášení problematického obsahu generovaného modelem: developers.facebook.com/llama_output_feedback
  • Hlášení chyb a bezpečnostních problémů: facebook.com/whitehat/info

Index modelu lamy

Model Lama2 Lama2-hf Lama2-chat Llama2-chat-hf
7B Odkaz Odkaz Odkaz Odkaz
13B Odkaz Odkaz Odkaz Odkaz
70B Odkaz Odkaz Odkaz Odkaz