Francuski startup zajmujący się sztuczną inteligencją Mistral wypuściła na rynek swój pierwszy mannequin, który potrafi przetwarzać zarówno obrazy, jak i tekst.
Mannequin o nazwie Pixtral 12B, mający 12 miliardów parametrów, ma rozmiar około 24 GB. Parametry mniej więcej odpowiadają umiejętnościom rozwiązywania problemów przez mannequin, a modele z większą liczbą parametrów generalnie działają lepiej niż te z mniejszą liczbą parametrów.
Zbudowany na jednym z modeli tekstowych Mistral, Nemo 12B, nowy mannequin może odpowiadać na pytania dotyczące dowolnej liczby obrazów o dowolnym rozmiarze, podając adresy URL obrazów lub obrazy zakodowane przy użyciu base64, schematu kodowania binarnego na tekst. Podobnie jak inne modele multimodalne, takie jak rodzina Claude firmy Anthropic i GPT-4o firmy OpenAI, Pixtral 12B powinien — przynajmniej w teorii — być w stanie wykonywać zadania, takie jak podpisywanie obrazów i liczenie obiektów na zdjęciu.
Dostępne poprzez hyperlink torrent na GitHub I Przytulanie twarzyPlatformę do tworzenia sztucznej inteligencji i uczenia maszynowego, Pixtral 12B, można pobrać, dostroić i używać prawdopodobnie na podstawie standardowej licencji deweloperskiej Mistral, która wymaga płatnej licencji dla zastosowań komercyjnych, ale nie do celów badawczych i akademickich.
Mistral nie wyjaśnił jeszcze dokładnie, która licencja dotyczy Pixtral 12B. Startup oferuje niektóre — ale nie wszystkie — modele na licencji Apache 2.0 bez ograniczeń. Skontaktowaliśmy się z PR i zaktualizujemy ten publish, gdy tylko otrzymamy odpowiedź.
Niestety, autor nie mógł przetestować Pixtral 12B — w momencie publikacji nie było żadnych działających wersji demonstracyjnych. W poście na X, Sophia Yang, szefowa działu relacji z deweloperami Mistral, powiedział Pixtral 12B będzie wkrótce dostępny do testowania na platformach chatbotów i API firmy Mistral, Le Chat i Le Platforme.
Nie jest jasne, jakich danych graficznych Mistral mógł użyć do opracowania Pixtral 12B.
Większość generatywnych modeli sztucznej inteligencji, w tym inne modele Mistralsą trenowane na ogromnych ilościach danych publicznych z całej sieci, które często są chronione prawami autorskimi. Niektórzy dostawcy modeli twierdzą, że prawa „dozwolonego użytku” uprawniają ich do scrapowania każdy danych publicznych, jednak wielu właścicieli praw autorskich nie zgadza się z tym i wniosło pozwy przeciwko większym dostawcom, takim jak OpenAI i Midjourney, domagając się położenia kresu tej praktyce.
Pixtral 12B pojawia się po zamknięciu przez Mistral rundy finansowania o wartości 645 milionów dolarów prowadzonej przez Normal Catalyst, która wyceniła firmę na 6 miliardów dolarów. Mający niewiele ponad rok Mistral — będący własnością mniejszościową Microsoftu — jest postrzegany przez wielu w społeczności AI jako europejska odpowiedź na OpenAI. Strategia młodszej firmy do tej pory obejmowała udostępnianie bezpłatnych „otwartych” modeli, pobieranie opłat za zarządzane wersje tych modeli i świadczenie usług konsultingowych klientom korporacyjnym.