Elon Musk, właściciel firmy xAI, podczas rozmowy transmitowanej na platformie X z Markiem Pennem, przewodniczącym Stagwell, stwierdził, że branża sztucznej inteligencji osiągnęła granice wykorzystania dostępnych danych. „W zasadzie wyczerpaliśmy sumę ludzkiej wiedzy w kontekście trenowania AI. To stało się w zeszłym roku” – powiedział Musk.
Kryzys „peak data” w branży AI
Komentarz Muska wpisuje się w szerszą debatę na temat kryzysu danych w sztucznej inteligencji. Ilya Sutskever, były główny naukowiec OpenAI, podczas konferencji NeurIPS w grudniu, nazwał ten moment „peak data”. Według niego, brak nowych, dostępnych danych wymusi zmianę sposobu trenowania modeli AI, co może stanowić wyzwanie dla przyszłego rozwoju technologii.
Musk zaproponował jednak rozwiązanie – wykorzystanie danych syntetycznych. „Jedynym sposobem na uzupełnienie >>danych rzeczywistych<< są dane syntetyczne, generowane przez same modele AI” – wyjaśnił. „Dzięki temu AI przechodzi proces samouczenia się, oceniając i doskonaląc swoje dane.”
Dane syntetyczne jako nowy standard
Firmy technologiczne już teraz intensywnie korzystają z danych syntetycznych w rozwoju swoich systemów AI. Microsoft, Meta, OpenAI czy Anthropic wykorzystują te dane w modelach takich jak Claude 3.5 Sonnet, Phi-4 czy Llama. Gartner szacuje, że w 2024 roku aż 60% danych używanych w projektach związanych z AI i analizą będzie generowanych syntetycznie.
Dane syntetyczne oferują wiele korzyści, w tym znaczne oszczędności kosztów. Na przykład startup Writer stworzył model Palmyra X 004 za jedyne 700 tys. dolarów, podczas gdy porównywalny model OpenAI wymagał inwestycji rzędu 4,6 miliona dolarów.
Ryzyka związane z danymi syntetycznymi
Pomimo korzyści, dane syntetyczne mają swoje wady. Badania wskazują, że mogą one prowadzić do tzw. „zapaści modeli” (model collapse). W takich przypadkach model staje się mniej kreatywny, bardziej stronniczy i funkcjonalnie ograniczony. Problemy te wynikają z faktu, że jeśli dane wyjściowe zawierają błędy lub uprzedzenia, modele trenujące na tych danych będą je powielać, co może wpływać na ich późniejsze działanie.
Przyszłość sztucznej inteligencji
Komentarze Muska i innych ekspertów pokazują, że przyszłość AI zależy od rozwiązań takich jak dane syntetyczne, ale ich wdrażanie wymaga ostrożności i ciągłego monitorowania jakości. W obliczu wyczerpania danych rzeczywistych, branża stoi przed wyzwaniem: jak rozwijać technologie, jednocześnie unikając potencjalnych pułapek związanych z samouczącymi się systemami.