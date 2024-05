Po týdnech spekulací oznámil tvůrce ChatGPT, společnost OpenAI, novou verzi ChatGPT pro stolní počítače a upgrade uživatelského rozhraní nazvaný GPT-4o, který umožňuje komunikovat pomocí textových, hlasových a vizuálních výzev.





GPT-4o dokáže rozpoznat a reagovat na snímky obrazovky, fotografie, dokumenty nebo grafy, které do něj byly nahrány. Nový model GPT-4o dokáže rozpoznat také výrazy obličeje a informace napsané rukou na papíře. Společnost OpenAI uvedla, že vylepšený model a doprovodný chatbot dokáže reagovat na zvukové vstupy již za 232 milisekund, přičemž průměrná doba reakce je 320 milisekund, „což je podobná doba reakce člověka při konverzaci“.

Předchozí verze GPT měly také konverzační hlasový režim, ale jejich latence byla v průměru 2,8 sekundy (v GPT-3.5) a 5,4 sekundy (v GPT-4).

Podle technologické ředitelky společnosti OpenAI Miry Murati se nyní GPT 4o vyrovná výkonu GPT-4 Turbo (vydaného v listopadu) v případě textu v angličtině a kódu a výrazně se zlepší v případě textu v neanglických jazycích, přičemž je také rychlejší a o 50 % levnější ve verzi API.

„GPT-4o je ve srovnání se stávajícími modely lepší zejména v oblasti vidění a porozumění zvuku,“ uvedla společnost OpenAI ve svém oznámení.

Během akce na pódiu Muratiová uvedla, že GPT-4o bude mít také nové paměťové schopnosti, díky nimž se bude moci učit z předchozích konverzací s uživateli a přidávat je ke svým odpovědím.

Chirag Dekate, analytik a viceprezident společnosti Gartner, , uvedl, že ačkoli na něj multimodální velký jazykový model (LLM) společnosti OpenAI udělal dojem, společnost zjevně dohání konkurenci, na rozdíl od svého dřívějšího postavení lídra v oboru generativní AI.

„Nyní začínáte vidět, jak GPT vstupuje do multimodální éry,“ řekl Dekate. „Ale dohánějí to, kde byla společnost Google před třemi měsíci, když oznámila Gemini 1.5, což je její nativní multimodální model s kontextovým oknem o velikosti jednoho milionu tokenů.“

Přesto jsou schopnosti, které předvedl GPT-4o a jeho doprovodný chatbot ChatGPT, na engine pro zpracování přirozeného jazyka působivé. Předvedl lepší konverzační schopnosti, kdy jej uživatelé mohou přerušit a zahájit nové nebo upravené dotazy, a také se vyzná v 50 jazycích. Při jedné živé ukázce na pódiu dokázal hlasový režim překládat tam a zpět mezi Muratim, který mluvil italsky, a Barretem Zophem, vedoucím post-trainingu společnosti OpenAI, který mluvil anglicky.

Během živé ukázky Zoph také napsal algebraickou rovnici na papír, zatímco ChatGPT sledoval přes objektiv kamery svého telefonu. Zoph poté požádal chatbota, aby mu řešení vysvětlil.

Zatímco rozpoznávání hlasu a konverzační interakce byly velmi podobné lidským, v interaktivním botovi byly také patrné závady, kdy se během konverzace přerušoval a o chvíli později se zase obnovil.

Chatbot byl poté požádán, aby vyprávěl pohádku na dobrou noc. Přednášející mohli chatbota přerušit a nechat ho přidat do intonace hlasu více emocí, a dokonce přejít na počítačové podání příběhu.

V další ukázce Zoph vyvolal na obrazovce svého notebooku softwarový kód a pomocí aplikace hlasových příkazů ChatGPT 4o jej nechal vyhodnotit kód, aplikaci mapující počasí, a určit, o co jde. GPT-4o pak dokázal přečíst graf aplikace a určit na něm datové body týkající se vysokých a nízkých teplot. Murati uvedla, že funkce GPT-4o pro práci s textem a obrázky se budou zavádět iterativně počínaje dneškem.

Platící uživatelé služby ChatGPT Plus budou mít až pětkrát vyšší limity zpráv. Nová verze hlasového režimu s GPT-4o přijde v alfa verzi v příštích týdnech, řekla Murati.

Vývojáři modelů mohou nyní také přistupovat ke GPT-4o v rozhraní API jako k textovému a vizuálnímu modelu. Nový model je dvakrát rychlejší, o polovinu levnější a má pětkrát vyšší limity rychlostí ve srovnání s GPT-4 Turbo, uvedla Murati.

„V příštích týdnech plánujeme spustit podporu nových zvukových a obrazových funkcí modelu GPT-4o pro malou skupinu důvěryhodných partnerů v rozhraní API,“ uvedla.

V oznámení společnosti OpenAI o GPT-4o nebylo podle Dekate jasné, jaká je velikost kontextu vstupního okna, které u GPT-4 činí 128 000 tokenů. „Velikost kontextu pomáhá definovat přesnost modelu. Čím větší je velikost kontextu, tím více dat můžete zadat a tím lepší výstupy získáte,“ řekl.

Například model Gemini 1.5 společnosti Google nabízí kontextové okno o velikosti jednoho milionu tokenů, což z něj činí nejdelší ze všech dosavadních rozsáhlých nadačních modelů. Další v řadě je Claude 2.1 společnosti Anthropic, který nabízí kontextové okno s až 200 000 tokeny. Větší kontextové okno společnosti Google se projevuje tím, že se do něj vejde celá kódová základna aplikace pro aktualizace nebo upgrady modelu genAI; GPT-4 měl schopnost přijmout pouze asi 1 200 řádků kódu, uvedl Dekate.

Mluvčí OpenAI uvedl, že velikost kontextového okna GPT-4o zůstává na 128 kB.

Začátkem tohoto měsíce společnost Mistral rovněž oznámila svůj multimodální model LLaVA-NeXT. A očekává se, že společnost Google učiní další oznámení o Gemini 1.5 na své akci Google I/O.

„V jistém smyslu bych tvrdil, že OpenAI nyní dohání Metu, Google a Mistral,“ řekl Dekate.

Nathaniel Whittemore, generální ředitel platformy Superintelligent pro trénink AI, označil oznámení OpenAI za „nejrozporuplnější“, jaké kdy viděl.

„Někteří mají pocit, že zahlédli budoucnost; vizi z Her přenesenou do reálného života. Jiní si říkají: „To je všechno?“ uvedl v e-mailové odpovědi. „Částečně jde o to, co to nebylo: nebylo to oznámení o GPT4.5 nebo GPT-5. Tohle bylo jen oznámení o tom, co se stalo. Na nejmodernější koně je upřena taková pozornost, že pro některé by cokoli menšího bylo zklamáním, ať už by se dělo cokoli.“

Murati uvedla, že OpenAI si uvědomuje, že GPT-4o přinese také nové možnosti zneužití zvukového a vizuálního rozpoznávání v reálném čase. Uvedla, že společnost bude i nadále spolupracovat s různými subjekty, včetně vlády, médií a zábavního průmyslu, aby se pokusila vyřešit bezpečnostní problémy.

Předchozí verze ChatGPT (4.0) měla také hlasový režim, který používal tři samostatné modely: jeden model přepisuje zvuk na text, druhý přebírá text a vypisuje text a třetí model převádí tento text zpět na zvuk. Tento model, jak vysvětlila Murati, dokáže pozorovat tón, více mluvčích nebo zvuky v pozadí, ale nedokáže vyprodukovat smích, zpěv nebo vyjádřit emoce.

GPT-4o však používá jediný end-to-end model pro text, vidění a zvuk, což znamená, že všechny vstupy a výstupy jsou zpracovávány stejnou neuronovou sítí, což umožňuje větší zážitek v reálném čase.

„Protože je GPT-4o naším prvním modelem, který kombinuje všechny tyto modality, stále ještě jen škrábeme povrch zkoumání toho, co model dokáže, a jeho omezení,“ řekla Murati.