Jeśli do tej pory myśleliśmy, że Chat GPT to przełom, pora chyba zrewidować nasze oczekiwania. Multimodalna AI GPT-4 jest jeszcze nowocześniejsza.

OpenAI wypuściło właśnie potężny nowy model sztucznej inteligencji do rozumienia obrazu i tekstu. Mowa o GPT-4, który firma nazywa „najnowszym kamieniem milowym w swoich wysiłkach na rzecz skalowania głębokiego uczenia się”. Model ten jest już dostępny dla płacących użytkowników OpenAI za pośrednictwem ChatGPT Plus (z limitem użytkowania), a programiści mogą zapisać się na listę oczekujących, aby uzyskać dostęp do interfejsu API.

GPT-4 – co o nim wiemy?

Znana jest już cena, jaką obecnie należy ponieść, by korzystać z najnowocześniejszej sztucznej inteligencji. Wynosi ona 0,03 USD za 1000 tokenów „monitujących” (około 750 słów) i 0,06 USD za 1000 tokenów „uzupełniających” (ponownie około 750 słów). Tokeny reprezentują nieprzetworzony tekst; na przykład słowo „fantastyczny” zostałoby podzielone po angielsku na tokeny „fan”, „tas” i „tic”. Tokeny podpowiedzi to części słów wprowadzane do GPT-4, podczas gdy tokeny uzupełniające to treść generowana przez GPT-4.

Jak się okazuje, GPT-4 ukrywał się na widoku, choć działa od pewnego czasu. Microsoft potwierdził wczoraj, że Bing Chat, technologia chatbota opracowana wspólnie z OpenAI, działa właśnie w oparciu na GPT-4. Inni wcześni użytkownicy tego AI to m.in. Stripe, który używa nowego modelu do skanowania witryn biznesowych i dostarczania podsumowania personelowi obsługi klienta. Dalej, Duolingo wbudowało GPT-4 w nowy poziom subskrypcji do nauki języków. Morgan Stanley tworzy oparty na nowym modelu system, który będzie pobierał informacje z dokumentów firmowych i udostępniał je analitykom finansowym. Z kolei Khan Academy wykorzystuje GPT-4 do zbudowania pewnego rodzaju automatycznego nauczyciela.

OpenAI GPT

Co się zmieniło?

GPT-4 może generować tekst i akceptować wprowadzane obrazy i tekst — to ulepszenie w stosunku do GPT-3.5, jego poprzednika, który akceptował tylko tekst. AI działa na „poziomie ludzkim” w różnych profesjonalnych i akademickich testach porównawczych. Przykładowo model w wersji 4.0 zdaje symulowany egzamin adwokacki z wynikiem zbliżonym do 10% najlepszych zdających; w przeciwieństwie do niego, wynik GPT-3.5 był w okolicy najniższych 10%.

Firma OpenAI spędziła sześć miesięcy na „iteracyjnym dopasowywaniu” GPT-4. Korzystała z wewnętrznego programu testowania konkurencyjnych produktów oraz ChatGPT, uzyskując „najlepsze w historii wyniki” pod względem faktyczności, sterowności i odmowy wyjścia poza bariery ochronne. Podobnie jak poprzednie modele GPT, GPT-4 został przeszkolony przy użyciu publicznie dostępnych danych. Wśród nich znalazły się dane z publicznych stron internetowych, a także danych licencjonowanych przez OpenAI.

OpenAI współpracowało z Microsoftem nad stworzeniem „superkomputera” od podstaw w chmurze Azure, który był używany do trenowania GPT-4. Jak przyznaje firma, „W swobodnej rozmowie różnice między GPT-3.5 i GPT-4 mogą być subtelne. Różnica pojawia się, gdy złożoność zadania osiąga wystarczający próg. Nowy model jest bardziej niezawodny, kreatywny i jest w stanie obsłużyć znacznie bardziej szczegółowe instrukcje niż GPT-3.5”.

Tekst? Jasne. Obrazy? Czemu nie!

Bez wątpienia jednym z bardziej interesujących aspektów GPT-4 jest jego zdolność do rozumienia obrazów i tekstu. Nowy model może opisywać — a nawet interpretować — stosunkowo złożone obrazy. Przykładowo może zidentyfikować adapter Lightning Cable na podstawie zdjęcia podłączonego iPhone’a. Funkcja rozumienia obrazu nie jest jeszcze dostępna dla wszystkich klientów firmy. OpenAI testuje ją na początek z jednym partnerem, firmą Be My Eyes. Obsługiwana przez czwartą wersję GPT nowa funkcja wirtualnego wolontariusza Be My Eyes może odpowiadać na pytania dotyczące przesłanych do niej obrazów. Firma wyjaśnia, jak to działa w poście na blogu:

Na przykład, jeśli użytkownik prześle zdjęcie wnętrza swojej lodówki, Wirtualny Wolontariusz będzie w stanie nie tylko poprawnie zidentyfikować, co się w niej znajduje, ale także ekstrapolować i analizować, co można przygotować z tych składników. Narzędzie może również zaoferować szereg przepisów na te składniki i wysłać przewodnik krok po kroku, jak je zrobić”.

Źródło: TechCrunch

Comments

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *