Data on Campus #2 - Cała prawda o polskich LLM-ach
10:30 Rejestracja
11:10 Keynote otwierający konferencję - Prelegent: Filip Graliński, Snowflake
SESJA I - PLLuM
11:30 - PLLuM: metodologia i proces tworzenia polskiego dużego modelu językowego | Prelegenci: Agnieszka Karlińska, Przemysław Kazienko, Jan Kocoń, Marek Kozłowski, Marcin Oleksy, Piotr Pęzik, Maciej Piasecki, Aleksandra Tomaszewska
12:20 - Przerwa kawowa
SESJA II - Bielik
12:50 - Ewolucja polskich modeli językowych Bielik | Prelegent: Krzysztof Ociepa
13:40 - Przerwa kawowo/obiadowa
SESJA III - Modele językowe w akcji
14:30 - Przegląd modeli w CSI | Prelegent: Piotr Jabłoński, CSI/WMI
14:50 - Wnioski z wdrażania LLM-ów | Prelegent: Adam Janczewski, DomData
15:10 - Medico | Prelegent: Grzegorz Kurzyp
15:30 - AI Baltic Trip | Prelegent: Michał Domański
15:50 - Przerwa kawowa
PANEL DYSKUSYJNY
16:10 - Wprowadzenie: O ewaluacji LLMów i dlaczego jest robiona źle | Prelegent: Marek Kubis
16:30 - Panel dyskusyjny | Paneliści: Maciej Piasecki, PLLuM; Sebastian Kondracki, Bielik; Krzysztof Jassem, CSI; Radosław Mączyński, DomData; Łukasz Borchman, Snowflake; Moderator: Michał Domański
W sobotę 26 października w Auli A na Wydziale Matematyki i Informatyki spotka się śmietanka polskiego AI, w tym twórcy dwóch polskich modeli językowych - PLLuM i Bielik!
Sponsorami wydarzenia są: DomData i Snowflake
-----
Sesja I - PLLuM:
Tytuł wystąpienia:
PLLuM: metodologia i proces tworzenia polskiego dużego modelu językowego
Prelegenci (kolejność alfabetyczna): Agnieszka Karlińska, Przemysław Kazienko, Jan Kocoń, Marek Kozłowski, Marcin Oleksy, Piotr Pęzik, Maciej Piasecki, Aleksandra Tomaszewska
Opis:
W trakcie wystąpienia przedstawimy proces budowania modeli z rodziny PLLuM, od gromadzenia i wytwarzania danych po ewaluację. Opowiemy:
- jak pozyskujemy dane, z których powstał największy korpus polskich tekstów
- jakie techniki wykorzystujemy w pretreningach i dostrajaniu
- w jaki sposób tworzymy instrukcje i jak wpływają one na dostrajanie
- w jaki sposób wychowujemy modele i jak tworzymy polskojęzyczny korpus preferencji
- jak dbamy o bezpieczeństwo i bezstronność modeli
Przedstawimy także autorskie narzędzie do szybkiego „składania” i testowania RAG-ów o różnej konfiguracji oraz projekt inteligentnego asystenta dla administracji publicznej.
Czas: 50 min
-----
Sesja II - Bielik:
Tytuł wystąpienia: Ewolucja polskich modeli językowych Bielik
Prelegent: Krzysztof Ociepa
Opis:
Przedstawienie ewolucji modeli językowych Bielik, obejmującej proces tworzenia, optymalizacji i rozwój ekosystemu narzędzi, które wspierają prace nad modelami języka polskiego.
Zakres prezentacji:
1. Ewolucja modeli Bielik - historia i różnice między wersjami
2. Przygotowanie danych - gromadzenie, czyszczenie, ocena jakosciowa
3. Trening modeli - pretraining, dostrajanie i dopasowanie do preferencji
4. Testowanie i benchmarkowanie - metodologia, benchmarki i leaderboardy
5. Skalowanie i optymalizacja - optymalizacja treningu, kwantyzacja modeli
6. Ekosystem narzędzi - przegląd autorskich narzędzi wspierających pracę z modelami
Czas: 50 min