Jak badać dane?

Generatory treści AI – Nowe możliwości w uczeniu maszynowym

Damian — Mon, 02 Sep 2024 07:00:54 +0000

Od ostatniego wpisu tutaj, minęło trochę czasu. Byłem zajęty pracą, w której zdryfowałem z zagadnień uczenia maszynowego w stronę backend aplikacji sieciowych. No i siłą rzeczy nie miałem nic ciekawego do napisania. Teraz powróciłem do uczenia maszynowego i okazało się, że mam kilka nowych zagadnień do omówienia.

Generatory

Do tej pory na blogu pisałem głównie o analizowaniu danych, wyciąganiu wniosków i budowaniu modeli predykcyjnych. Okazuje się jednak, że na świecie jest coraz większy popyt na używanie uczenia maszynowego do tworzenia nowych treści. Czyli do czegoś więcej niż uzyskiwania odpowiedzi tak/nie, bądź klasy „pies”, „kot”, „koń”, bądź wartości 20000 USD. Ludzie chcą uzyskiwać kompletne gotowe treści. Taką treścią może być obrazek, który zostanie wygenerowany z tekstu. Na przykład „Maltańczyk szydełkujący na plaży w stylu Vacation Dadcore” jakikolwiek by to miało mieć sens.

Maltese dog crocheting on the beach in Vacation Dadcore style

Maltese dog crocheting on the beach in Vacation Dadcore style

Grafika

Na załączonym obrazku widać efekt wygenerowany przez serwis playground z takiego zapytania (w wersji angielskiej). Model, z którego skorzystałem to chyba Stable Diffusion zmodyfikowany tak, żeby był szybki i tani w użyciu. No i z racji tego, że jest tanio (a nawet darmowo) i szybko, model ten produkuje nieidealne wyniki. Widać tutaj miejsce, gdzie pies oprócz bycia ubranym w ubranko szydełkowe sam też ma łapkę zrobioną na szydełku. I o ile takie coś jest dopuszczalne (można mieć maskotki zrobione na szydełku) to tutaj jest to nieprawidłowe kontekstowo zlepienie dwóch „grafik”. Pewnie gdy to czytasz, są już dostępne jeszcze lepsze modele, które popełniają coraz mniej takich błędów. „Kiedyś” łato się rozpoznawało wygenerowane obrazki po dziwnych palcach albo po tym, że oczy były różne. Teraz chyba nawet już to jest ogarnięte, więc możemy spodziewać się coraz większego zalewu tak stworzonych grafik, a nawet „filmów”.

Dźwięk

Podobnie sprawa ma się z muzyką oraz dźwiękiem ogólnie. Nie jest w dzisiejszych czasach niczym szczególnym mowa wygenerowana z tekstu, natomiast dzięki uczeniu maszynowemu można łatwo „przenieść” styl mowy danej osoby tak, żeby „brzmiała” dokładnie tak, jak chcemy. Możemy się więc spodziewać np. nowej fali wyłudzeń telefonicznych „na wnuczka” gdzie ofiara będzie rozmawiać z kimś, kto brzmi jak wnuczek. A tak naprawdę jest to oszust i głos generowany w czasie rzeczywistym. No i z tego co gdzieś widziałem, wskrzeszani są już piosenkarze i aktorzy. Zaiste ciekawe, ale i ponure czasy się zaczynają.

Tekst

Kolejną kategorią takich generatorów są „duże modele językowe” (ang. large language model, LLM). Tutaj już w ogóle temat trafił do mainstreamu i już w telewizji mówią o sztucznej inteligencji, z którą możemy chatować i napisze za nas zadanie domowe jak i całą książkę. No i tak trochę jest. Modele te nie są inteligentne same w sobie, natomiast całkiem trafnie potrafią przewidzieć, jakie powinno być kolejne słowo. I te modele skradły zainteresowanie dużej części biznesu. W dużej mierze dlatego, że sprawiają wrażenie, że są potężną i wszechstronną sztuczną inteligencją. Poniekąd też dlatego, że nie osiągnęły jeszcze limitu. Chodzi o to, że w przypadku LLMów wciąż możemy dawać im więcej danych do treningu i wciąż możemy budować większe sieci neuronowe i uzyskiwać w ten sposób lepsze wyniki. Wystarczy więc sypać pieniędzmi do pieca, a pociąg będzie jechał szybciej.

Jak sami możemy się za to zabrać?

Nie wiem, jak z wyżej wymienionymi aspektami graficznymi i dźwiękowymi, ale jeżeli chcemy skonstruować sobie taką sztuczną inteligencję „do pogadania” albo do tego, żeby pisała za nas zadanie domowe, to możemy się za to zabrać, nawet bez góry pieniędzy do spalenia. Potrzebujemy do tego w zasadzie dwóch elementów oprogramowania i jednego sprzętowego.

Jeśli chodzi o sprzęt, to dobrze byłoby mieć jakieś GPU. Nie jestem pewien czy jakaś firma przełamała już przewagę Nvidii w tej kwestii, więc jeśli masz GPU Nvidii to powinno zadziałać bez większych problemów. Im nowsze, tym lepiej i im więcej RAMu na karcie, tym lepiej. Można też próbować bez GPU, tyle że wtedy potencjalna interakcja nie będzie się odbywała w skali sekund, ale raczej grubych minut. Przy czym, w niektórych sytuacjach nie musi to być problemem.

Jeśli chodzi o oprogramowanie, to potrzebne nam będą dwa elementy: wytrenowany model i interface do „gadania” z modelem. Na dzień dzisiejszy (koniec sierpnia 2024) najlepszym modelem LLM dostępnym publicznie zdaje się, że jest meta-llama/Meta-Llama-3.1-405B-Instruct. Jest to model przygotowany przez firmę Meta (dawniej Facebook) opublikowany 23 lipca 2024. Dzięki korzystaniu z wytrenowanego modelu nie musimy poświęcać zasobów na jego zbudowanie. A w razie potrzeby, możemy go douczyć, jeżeli to, co w nim zostało zawarte, jest dla nas niesatysfakcjonujące. Fajna sprawa.

Jednakże sam model, to de facto duża tabela z liczbami rzeczywistymi, więc ciężko z takiej tabelki wydobyć odpowiedź na jakiekolwiek pytanie. Trzeba ją obudować odpowiednim interface. I tutaj z pomocą przychodzi biblioteka Python transformers. Instalujemy, importujemy, wskazujemy, co chcemy zrobić i na bazie jakiego modelu chcemy to zrobić i już. Mamy darmową, kompletną, współczesną i całkiem efektywną platformę to zagadnień związanych z tekstem i ogólnie z przetwarzaniem języka naturalnego.

Co dalej?

Oczywiście, jak zwykle diabeł tkwi w szczegółach. Samo uruchomienie Llamy nie sprawi, że cokolwiek co robimy, nagle stanie się mądrzejsze. Jak to zwykle bywa, ML/AI jest super narzędziem, ale głównie wtedy jeżeli jesteśmy w stanie dobrze określić problem, który chcemy rozwiązać. I znaleźć dane i miejsce, do których możemy doczepić nasze rozwiązanie. Osobiście jeszcze tego nie rozgryzłem. Oczywiście jest cała masa przykładów jak można używać LLMy, ale jeszcze żaden do mnie nie przemówił. W zagadnieniach stricte tabelarycznych i w szeregach czasowych nie mam takich problemów. Umiem wyobrazić sobie konkretne namacalne przykłady i budować działające prototypy, które im odpowiadają. Tutaj jeszcze tego nie czuję. Ale myślę, że niedługo coś przygotuję i opiszę tutaj konkretniej. Także, do następnego artykułu

Artykuł Generatory treści AI – Nowe możliwości w uczeniu maszynowym pochodzi z serwisu Jak badać dane?.

Docker + VS Code czyli Kaggle w Twoim domu

Damian — Mon, 01 Nov 2021 08:00:10 +0000

Każdy miał chyba taki moment w swojej karierze tudzież prywatnych działaniach, gdy entuzjastycznie zaczynał nowy projekt. Zaczynanie nowego projektu to często bardzo fajna i przyjemna sprawa. Szczególnie gdy chce nam się wszystko przygotowywać i konfigurować. Ale jeżeli akurat zależy nam na jak najszybszym przetestowaniu nowego pomysłu, takie przygotowania mogą być frustrujące i wyczerpujące. I tutaj pojawia się całkiem ciekawa technologia zwana Docker.

Docker to oprogramowanie, które pozwala tworzyć i uruchamiać kontenery, czyli takie wirtualne maszyny z osobnym systemem operacyjnym. Ale nie są to pełne maszyny wirtualne uruchamiane na wirtualnym sprzęcie. Są one uruchamiane na poziomie jądra systemu operacyjnego. Atutem takich kontenerów jest to, że nie generują one dużego narzutu zasobów — jak to często bywa przy pełnej wirtualizacji.

Powyższy akapit to jednak w dużej mierze nieistotne detale. To, co nas interesuje, to możliwość wykorzystania Dockera jako bazy do błyskawicznego przygotowania naszego środowiska pracy. I to nie byle jakiego, ale dokładnie takiego, jakie jest używane w serwisie Kaggle. No i, żeby było ciekawiej, zintegrujemy je z IDE VS Code. Od pewnego czasu jestem dużym fanem tego IDE i sądzę, że będzie to niezła gratka, nie tylko dla początkujących.

Docker

Pierwszy składnik, który będzie nam potrzebny to sam Docker. Nie będę tutaj rozpisywał jak dokładnie zainstalować Dockera na konkretnym systemie. Jeżeli tak jak ja korzystasz z dystrybucji Linuksa, to odpowiednie instrukcje znajdziesz tutaj. W ten sposób zainstalujesz Docker Engine, który jest darmowy i open source. Jest to sam „silnik”, którego używa się za pomocą linii komend. Co ciekawe, w wielu dystrybucjach Docker jest już dostępny. Jest to jednak prawie zawsze dość stara wersja, która, mimo iż może działać bezproblemowo, niekoniecznie jest wspierana i maksymalnie wydajna. Polecam więc instalację najnowszej stabilnej wersji wprost z oficjalnych repozytoriów.

Dla systemów Windows i macOS twórcy Dockera przygotowali aplikację graficzną, która oprócz wspomnianego powyżej Docker Engine zawiera też interfejs do sprawdzania statusu uruchomionych kontenerów oraz łatwe zarządzanie nimi. Oficjalna instrukcja instalacji znajduje się tutaj. Sam nie korzystałem z tego rozwiązania, ale zdaje się ono być przydatne przy rozwiązywaniu problemów, szczególnie dla początkujących. Uwaga: licencja tego narzędzia (Docker Desktop) wymusza wykupienie płatnej subskrypcji jeżeli firma, w której jest ono używane, ma więcej niż 250 pracowników lub więcej niż 10 M USD rocznego przychodu.

VS Code

Docker sam w sobie jest bardzo przydatnym i kompletnym narzędziem developerskim. Na dobrą sprawę, nie trzeba nic więcej, bo można „ręcznie” połączyć się z uruchomionymi kontenerami i skorzystać z narzędzi, które są tam dostępne. Albo sobie je doinstalować. Nie jest to jednak najbardziej wygodne i edukacyjne podejście dla osób początkujących. Po prostu może to być zbyt przytłaczające. I tu z pomocą przyjdzie nam VS Code. VS Code oprócz tego, że jest nowoczesnym i darmowym środowiskiem programistycznym, posiada całą gamę dodatków. I jednym z takich dodatków jest Remote Development, który pozwala na łatwe manewry związane z kontenerami właśnie.

Potrzebne nam więc VS Code. Pobrać je można z oficjalnej strony Microsoftu. Środowisko to jest darmowe i zbudowane z komponentów open source. Nie jest całościowo na licencji open source. Jest jednakże darmowe, również do użytku komercyjnego więc nie musimy się obawiać nalotu prawników. Po instalacji potrzebujemy jeszcze doinstalować wspomniany powyżej dodatek umożliwiający bezbolesną komunikację z Dockerem. W głównym oknie VS Code naciskamy kombinację przycisków Ctrl + p. W pasku, który się pojawi wklejamy ext install ms-vscode-remote.vscode-remote-extensionpack. VS Code połączy się wtedy z oficjalnym repozytorium i pobierze wskazany dodatek.

Kaggle

Teraz czeka nas najlepsza zabawa. Żeby bez problemowo móc przerzucać kod z komputera do środowisk Kaggle i odwrotnie, najlepiej byłoby mieć taką samą strukturę katalogów. Można to zrobić odpowiednio, podpinając katalogi z dysku do katalogów w kontenerze. Ale ja jakoś szczególnie nie przepadam za tym pomysłem, bo często gdzieś się pomylę i ogólnie mi to trochę zaciemnia to rozwiązanie. Moje podejście to natomiast zbudowanie sobie lokalnego drzewa katalogów, które wygląda jak drzewo katalogów Kaggle. Przyjmijmy, że chciałem pracować nad danymi z konkursu PetFinder.my — Pawpularity Contest. Tworzę więc sobie następującą strukturę:

kaggle
├── .devcontainer.json
├── input
│   └── petfinder-pawpularity-score
│       ├── sample_submission.csv
│       ├── test
│       │   ├── 4128bae22183829d2b5fea10effdb0c3.jpg
│       │   ├── 43a2262d7738e3d420d453815151079e.jpg
│       │   ├── 4e429cead1848a298432a0acad014c9d.jpg
│       │   ├── 80bc3ccafcc51b66303c2c263aa38486.jpg
│       │   ├── 8f49844c382931444e68dffbe20228f4.jpg
│       │   ├── b03f7041962238a7c9d6537e22f9b017.jpg
│       │   ├── c978013571258ed6d4637f6e8cc9d6a3.jpg
│       │   └── e0de453c1bffc20c22b072b34b54e50f.jpg
│       ├── test.csv
│       ├── train [9912 entries exceeds filelimit, not opening dir]
│       └── train.csv
└── working
    └── petfinder-pawpularity-score.ipynb

Zaczynam od katalogu kaggle. Katalog ten nazwałem tak sobie po prostu, żeby wiedzieć, co w nim jest. Można go sobie nazwać dowolnie. Następnie mamy dwa kluczowe katalogi input i working. Te katalogi chcielibyśmy, żeby tak się nazywały, bo tak się nazywają w środowiskach kaggle. W katalogu input rozpakowałem sobie paczkę z danymi pobranymi z kaggle. W ichnim systemie dane te leżą w dokładnie takim samym miejscu i wszystko w nich jest takie samo. Możemy więc sięgać do katalogów test i train oraz do plików korzystając z takich samych ścieżek. Ale no właśnie, skoro ścieżki chcemy mieć takie same, to musimy startować z kodem z tego samego miejsca. I rozwiązujemy to za pomocą katalogu working. Notebook, który uruchamiamy przez środowisko na stronie kaggle znajduje się właśnie w takim katalogu. Jeżeli więc utworzymy sobie lokalnie plik notebooka (w moim przypadku nazwałem go sobie tak, jak mi pasowało, czyli nazwą konkursu) w tym katalogu, to używając względnych ścieżek, będziemy sobie mogli wczytywać dane dokładnie tak samo w obydwu przypadkach. Uważne oko, zauważy, że został nam jeden plik, którego jeszcze nie omówiłem. Jest to .devcontainer.json i właśnie on jest kwintesencją tego artykułu.

.devcontainer.json

W tym pliku znajdziemy opis, jak to wszystko jest ze sobą spięte. W naszym przypadku plik ten wygląda tak:

{
    "image": "gcr.io/kaggle-images/python",
    "extensions": [
        "ms-python.vscode-pylance",
        "ms-toolsai.jupyter"
    ],
    "containerEnv": {
        "LOCAL": "True"
    },
}

Jest to najmniejsza wersja, jaka według mnie ma sens i jednocześnie pozwala bez problemowo pracować tak jak na stronie Kaggle. Mamy tutaj trzy elementy. Pierwszy od góry to image. Definiujemy tutaj jaki obraz Docker ma być uruchomiony. Naszym celem jest to, czego używa Kaggle. VS Code pobierze więc ten obraz z repozytorium. Zawartość tego kontenera można swobodnie podejrzeć tutaj.

Później, VS Code umieszcza część swoich bebechów w uruchomionym kontenerze. Ale że jest to minimalna wersja potrzebna do uruchomienia, powinniśmy od razu doinstalować sobie potrzebne dodatki. Dodatki te definiujemy w kluczu extensions. Ja wybrałem jeden ogólny od Pythona i jeden od obsługi notebooków Jupyter.

Ostatnim elementem jest ustawienie zmiennej środowiskowej przez containerEnv. Za pomocą takich zmiennych możemy przekazywać m.in. do Pythona informacje o środowisku, w którym został uruchomiony. Ja stworzyłem tutaj zmienną LOCAL, której przypisałem True. Poniżej pokażę, jak ją użyłem.

Praktyka

Czas na praktykę. Musisz pobrać i zainstalować na swoim komputerze Docker i VS Code. Jak już je masz, to musisz stworzyć na dysku odpowiednią strukturę katalogów i plików. Aby to ułatwić, stworzyłem repozytorium, które to zawiera. Znajdziesz je tutaj.

Teraz wystarczy uruchomić VS Code i wskazać katalog, który pobrałeś z repozytorium albo przygotowałeś ręcznie. VS Code wykryje plik .devcontainer.json i zapyta się, czy uruchomić ten katalog wewnątrz kontenera. Jeżeli się zgodzimy, to będziemy musieli chwilę poczekać. Za pierwszym razem, VS Code pobierze obraz Kaggle, który trochę waży. Na dzień pisania tego artykułu jest to 18.4 GB. Waży to tyle, bo mamy tam całą masę bibliotek, które często robią praktycznie to samo. A jest tak, bo obraz ten powstał z myślą, żeby zadowolić wszystkich zainteresowanych uczeniem maszynowym w języku Python. Gdy już się oswoisz z Dockerem, dobrym pomysłem będzie zbudowanie swojego obrazu na bazie jakiegoś innego małego. Np. taki python3-slim, czyli minimalny Linux z najnowszym Pythonem to 122 MB. Można go wziąć jako bazę i dorzucić swoje ulubione biblioteki jedna za drugą.

Gdy już się wszystko pobierze i uruchomi, możemy i uruchomić przykładowy plik notebooka. Zostaniemy zapytani o wybranie kernela. Należy zwrócić uwagę, że obojętnie jakich środowisk wirtualnych nie mamy w systemie bazowym, pojawi się tutaj lista tylko kerneli ze środowisk wewnątrz kontenera. Dokładnie o to nam chodziło. Wybieramy środowisko base, z dystrybucji conda i już możemy działać pełnią możliwości.

W domu i w Kaggle

Pozostała jeszcze zmienna LOCAL do wyjaśnienia. W notebooku pobieram jej zawartość (w komórce In [8]) do zmiennej local i interpretuję czy jest True, czy False. Jeżeli uruchomię ten notebook w środowisku kaggle, to zmiennej LOCAL tam nie będzie, więc local będzie False więc n = 10. Na moim komputerze w Dockerze ta zmienna jest, wiec local będzie True i n = 1. W ten sposób mogę sterować np. operacjami, które na Kaggle będą mogły korzystać z GPU, a na moim laptopie tylko z CPU.

Podsumowanie

Docker to bardzo wygodne narzędzie programistyczne. Pozwala bez zbędnych ceregieli dzielić się nie tylko kodem, ale i całymi systemami operacyjnymi, w których wszystko jest przygotowane dokładnie, tak jak autor sobie zaplanował. Co więcej, takie kontenery można ze sobą łączyć za pomocą docker-compose i w ten sposób budować sieci, w których różne systemy gadają ze sobą. Oczywiście, jeżeli autorzy dockerów są niechlujni albo chcą złapać wszystkie sroki za ogon, to zamiast lekkich kontenerków, dostajemy kobyłę jak od Kaggle. Jeżeli jednak mamy dostępny plik Dockerfile to możemy podejrzeć, jak to tam zostało zrobione i samemu sobie zbudować coś bardziej odpowiedniego.

W artykule tym opisałem integrację VS Code z Dockerem. Okazuje się jednak, że jeżeli jakieś IDE pretenduje do bycia współczesnym, też mniej lub bardziej pozwala kodować w Dockerze. Polecam więc zdecydowanie sprawdzić i zorganizować sobie coś takiego, bo tak według mnie będzie wyglądać przyszłość programowania.

Artykuł Docker + VS Code czyli Kaggle w Twoim domu pochodzi z serwisu Jak badać dane?.

Jakość powietrza w Polsce #5 – Rok 2019 oczami oddychającego Polaka

Damian — Sun, 24 Jan 2021 08:00:04 +0000

Niedawno rozpoczął się rok 2021. Jest to więc dobry moment, żeby sprawdzić jaka była jakość powietrza w Polsce w roku 2019. Tak, w roku 2019, bo na stronie GIOŚ, nie ma jeszcze paczki z roku 2020. Jeżeli takowa się pojawią, to pewnie pojawi się również kolejny wpis, w którym je przetworzę. Natomiast jak to gdzieś w jakimś filmie ktoś powiedział: jak się nie ma, co się lubi, to się lubi, co się ma. Jakoś tak :D.

Metodologia

Cóż, metodologia została taka sama jak wcześniej, możesz się z nią zapoznać we wpisie Jakość powietrza w Polsce #2 Rok 2017 oczami oddychającego Polaka. Czy jest ona dobra? Nie wiem. Nie jest idealna, bo pozostawia wiele pytań, ale ostatnio nie wpadłem na nic lepszego. Więc póki nie wymyślę nic lepszego, to pozostanę przy niej. No i skoro miałem już taką analizę dla roku 2017, to dobrze byłoby przeprowadzić identyczną dla roku 2019. Wiem, że ominąłem rok 2018. Jakoś blogowanie mi się nie kleiło wtedy. Jeśli pojawi się potrzeba, to przepuszczę przez skrypt również rok 2018.

Kod

Okej, przyznam się, że kod, który wtedy napisałem, to taka paździerz trochę. Niby robi to co planowałem, żeby robił, ale robi to bardzo topornie i nie jest jakoś szczególnie czytelny. Pominę w ogóle nomenklaturę, którą tam przyjąłem. Brr. Ale nie ma co kasować starego kodu, skoro działa. Poza tym przypomina mi, gdzie kiedyś byłem i jak kiedyś pisałem. No i może pokaże też komuś, że nie wszyscy zawsze piszą perfekcyjny kod.

Wyniki 2019

Ok, to nie przedłużając za bardzo, wyniki z roku 2019:

Miasta położone pomiędzy najgorszym czujnikami (nie są chyba najbardziej zanieczyszczone, bo w nich samych nie było kompletu czujników) w 2019:

Skała (MP)
Wolbrom (MP)
Jastrzębie-Zdrój (ŚL)

Jak to wygląda na mapie:

Skała-2019

" data-image-caption="

Skała-2019

Skała (MP)

Wolbrom-2019

" data-image-caption="

Wolbrom-2019

Wolbrom (MP)

Jastrzębie-Zdrój-2019

" data-image-caption="

Jastrzębie-Zdrój-2019

Jastrzębie-Zdrój-2019

A teraz miasta położone pomiędzy najlepszymi czujnikami w 2019:

Krynki (PL)
Michałowo (PL)
Sokółka (PL)

I teraz mapy:

Krynki-2019

" data-image-caption="

Krynki-2019

Krynki (PL)

Michałowo-2019

" data-image-caption="

Michałowo-2019

Michałowo (PL)

Sokółka-2019

" data-image-caption="

Sokółka-2019

Sokółka (PL)

Interpretacja wyników z roku 2019

Pierwszy zasadniczy problem jest widoczny przy „najlepszych” miastach. Te trzy miasta leżą na tyle blisko siebie, że te same czujniki są im najbliższe. Według metody, którą wybrałem, mają więc te same wyniki. Może nie jest to duży problem. Drugi problem natomiast, który chyba jest większy, to ogólna duża odległość niektórych miast od najbliższych czujników. Miejscowość Wolbrom ma na przykład 38 kilometrów do najbliższego czujnika PM 2.5. A miasto to jest dość blisko całkiem sporego parku krajobrazowego. Ciężko jest więc przyjąć tę wartość PM 2.5 jako panującą w środku miasta.

Jest to więc problem podobny niejako do problemu z szukaniem zagubionego portfela. Pewien mężczyzna chodził wokół latarni pochylony i jęczał zasmucony. Przechodził tamtędy drugi mężczyzna i zapytał się, o co chodzi. – Zgubiłem portfel. – Tutaj Pan go zgubił? – Chyba nie. – To dlaczego Pan go tutaj szuka? – Bo tylko tutaj jest jasno. Takim więc abstrakcyjnym akcentem zakończę ten wpis. Do następnego.

Artykuł Jakość powietrza w Polsce #5 – Rok 2019 oczami oddychającego Polaka pochodzi z serwisu Jak badać dane?.

Kaggle – kalendarz adwentowy #24

Damian — Tue, 24 Dec 2019 16:00:03 +0000

Ostatni wpis w tegorocznym kalendarzu adwentowym dedykuję serwisowi Kaggle. Idea, która za nim stoi jest według mnie bardzo dobrym połączeniem przyjemnego z pożytecznym. Opiera się ona na 5 filarach i jednym „sekretnym” składniku. Zaraz dowiesz się jakich.

1. Cloud GPU — Notebooks

Zacznijmy od czegoś obiektywnie wartościowego, co dostajemy za darmo. Mowa tutaj o cloud GPU. Gdy wejdziemy na kaggle.com w sekcję Notebooks, to dostaniemy możliwość utworzenia notatnika podobnego do notatnika Jupyter Notebook. Notatniki te są podpięte do całkiem zacnej maszyny wirtualnej, która posiada również dostęp do GPU. Nie ma tam problemów z umieszczeniem własnych danych, możemy więc sobie całkiem za darmo skorzystać z GPU do własnych celów.

2. Zbiory danych — Datasets

Gdy wejdziemy w sekcję Datasets, naszym oczom ukaże się lista najgorętszych ostatnio zbiorów danych. Kaggle umożliwia bowiem dzielenie się publicznymi zbiorami danych. Zbiory te są katalogowane i używane przez innych użytkowników platformy. Jest to tak przemyślane, że z poziomu każdego zbioru danych możesz uruchomić notebook, który je widzi, i do każdego notebooka możesz też podłączyć jakiś opublikowany zbiór danych. Użytkownicy dzielą się więc zbiorami danych i notebookami, które je wykorzystują. A najpopularniejsze aktualnie zbiory danych są interpretowane właśnie jako „najgorętsze”.

3. Dyskusja — Discussion

Sekcja Discussion jest chyba najbardziej intuicyjna. Jest to po prostu forum internetowe dedykowane dyskusjom o uczeniu maszynowemu, danych i wszystkim pokrewnym. Oprócz tego forum każdy publiczny notatnik i zbiór danych ma swoją sekcję do dyskusji. Mamy więc tutaj na każdym kroku jakieś dyskusje.

4. Konkursy — Competitions

Sekcja Competitions może z kolei być najmniej intuicyjna. Znajdziemy bowiem tutaj konkursy na rozwiązywanie problemów za pomocą uczenia maszynowego. Jest to najmniej intuicyjna sekcja, ale zarazem według mnie najciekawsza. Nie będę się tutaj rozpisywał, bo napisałem już dwa artykuły wprowadzające w tę tematykę: LANL Earthquake Prediction i APTOS 2019 Blindness Detection. Sądzę, że znajdziesz tam wszystkie potrzebne i zachęcające informacje. Dodam jeszcze tylko, że konkursy są również spięte z dedykowanymi dyskusjami, notebookami i zbiorami danych. Bardzo łatwo jest się więc połapać, na jakich danych i w jakim konkursie działa osoba, której posty w dyskusji się czyta.

5. Kursy — Courses

Sekcja Courses jest z kolei najlepsza dla początkujących. Znajdują się tam krótkie samouczki, które można łatwo zrealizować na platformie Kaggle. Wykorzystują one opublikowane tam zbiory danych i notatniki z przygotowanymi ćwiczeniami. Ciężko znaleźć wygodniejsze miejsce, żeby zacząć „z marszu”.

Rankingi Kaggle

Jest jeden „sekretny” składnik, który sprawia, że Kaggle to miejsce, z którego treści o wysokiej jakości wciekają z każdego miejsca. Ten składnik to ranking. Idea jest tutaj taka, że wszystkie wartościowe aktywności z czterech dziedzin: konkursów, notatników, zbiorów danych oraz dyskusji są premiowane punktami. A punkty te przekuwają się na ranking. Punkty i rankingi te są na tyle wyrafinowanie skonstruowane, że nie da się tutaj łatwo oszukiwać. Stanowią więc one pewien dowód na „bycie ekspertem” w danej aktywności. A, że najwyraźniej rankingi to coś, co przedstawiciele społeczności uczenia maszynowego lubią, to chęć uzyskania wysokiej pozycji w rankingu motywuje do tworzenia wartościowych treści i auto moderacji. Fajna sprawa.

Kaggle — Podsumowanie

Kaggle to platforma, która zaczęła jako miejsce dedykowane konkursom uczenia maszynowego. Systematycznie rozrosła się do miejsca, gdzie praktycy spotykają się i dzielą się zbiorami danych, dyskutują o nowych ideach i ogólnie analizują wzajemnie efekty swojej pracy. Platforma ta jakiś czas temu została wykupiona przez Google, padł więc blady strach, że zaczną coś kombinować i ją zepsują. Okazuje się jednak, że od tamtego czasu udostępniono lepsze maszyny wirtualne z dostępem do GPU oraz przestrzeń na zbiory danych. Do tego wszystkiego dorzucono API oraz integrację z niektórymi usługami Google. Liczba konkursów i pula nagród również zdaje się rosnąć. Więc jak dla mnie, Kaggle to wciąż bardzo przyjazna i wygodna platforma dla osób na dowolnym poziomie zaawansowania. A temat ten wybrałem jako ostatni, bo uważam, że jeśli już przegryzłeś się przez cały kalendarz adwentowy, to możesz śmiało atakować wspomniane powyżej konkursy. Koniecznie daj znać, jak Ci poszło!

Artykuł Kaggle – kalendarz adwentowy #24 pochodzi z serwisu Jak badać dane?.

Cloud – kalendarz adwentowy #23

Damian — Mon, 23 Dec 2019 16:00:07 +0000

Współcześnie, jeżeli planujemy jakiś projekt uczenia maszynowego, to praktycznie mamy do wyboru trzy scenariusze: infrastruktura „osobista”, infrastruktura dedykowana i cloud (z angielskiego chmura). Infrastruktura osobista to sprzęt, jakim aktualnie dysponujemy jako urządzenia osobiste — laptopy i komputery PC. Czyli tak jakby start z marszu. Może okazać się jednak, że ten sprzęt jest dla nas niewystarczający. Wtedy musimy pomyśleć o kolejnym rozwiązaniu. Albo możemy kupić specjalistyczne serwery i karty graficzne do obliczeń i gdzieś je umieścić. Albo możemy wynająć podobne urządzenia na minuty w automatycznych systemach, które je udostępniają do pracy zdalnej. Czyli po prostu skorzystać z usług typu cloud obliczeniowy.

Dlaczego ktoś miałby chcieć korzystać z usług cloud?

Jeśli laptop nam nie wystarcza, to tak jak wspomniałem, mamy dwie opcje: kupić lub wynająć. Kupno jest spoko, bo dostajemy fizyczny sprzęt, którym dysponujemy, tak jak chcemy. Musimy tylko znaleźć jakieś dobre miejsce (ciepło, hałas i dużo pobieranego prądu) do jego umieszczenia i możemy działać. Mamy tutaj też kilka wad. Największa jest taka, że będzie nas to słono kosztować. A druga wada (możliwe, że nieoczywista) to fakt, że często od sformalizowania zamówienia do fizycznego rozpakowania sprzętu mogą minąć dni, a nawet tygodnie.

Zastanówmy się teraz nad scenariuszem typu cloud. Wybieramy jakiegoś dostawcę tego typu usług. Podłączamy tam kartę kredytową i od tego momentu możemy sobie wybierać ile i jakiego typu maszyny chcemy wynająć. Musimy jednak pomyśleć jak dostarczyć do nich nasze dane i jak będziemy przechowywać wyniki. No bo jeśli zdecydujemy się skończyć korzystać z komputerów w chmurze, to nasze wyniki po prostu wyparują. Mamy więc tutaj pewną optymalizację — mamy szybszy dostęp do sprzętu obliczeniowego i mniejszy koszt startu. Musimy jednak zadbać o umiejętne przerzucanie danych oraz musimy posiadać umiejętności związane z zarządzaniem usługami z chmury danego dostawcy. Mamy więc tutaj sytuację coś za coś, jednakże różnice są na tyle duże, że faktycznie są sytuacje, że usługi chmurowe mogą być dla kogoś bardzo praktycznym rozwiązaniem.

Czy każdy cloud się nada?

Wybierając cloud do uczenia maszynowego, musimy odpowiedzieć na te same pytania co przy wyborze klasycznego lokalnego sprzętu: jaki procesor? Jaki dysk? Ile RAMu? Ale okazuje się, że reszta już nas niewiele obchodzi. Pozostaje jednak jedno ważne pytanie, na które odpowiedź „tak” odsiewa dość dużą liczbę dostawców chmury: czy potrzebuję GPU?

Osobiście nie mam za dużych doświadczeń z cloud GPU. Jeśli potrzebuję ogarnąć jakiś notebook, żeby coś komuś pokazać albo coś przetestować to korzystam z Google Colab. Natomiast społeczność zebrana wokół projektu fastai ma całkiem sporo doświadczeń i przygotowali nawet całkiem rozbudowany samouczek jak uruchomić ich kurs u różnych chmurowych dostawców GPU. Samouczki te znajdziesz tutaj (zakładka po lewej „Server setup”).

Cloud — Podsumowanie

Czy korzystanie z GPU albo ogólnie uczenie maszynowe w chmurze się opłaca? Jedni powiedzą tak, inni powiedzą nie. Jeśli masz już okrzepnięty projekt i wiesz, że będziesz ostro piłował GPU i CPU przez najbliższe miesiące, to może Ci się bardziej opłacać kupić fizyczny sprzęt. Ale jeśli np. eksperymentujesz i Twoje potencjalne GPU jest przez więcej czasu nieużywane niż używane, to chmura może okazać się lepszym pomysłem. Będzie tańsza na start i nie zostaniesz z niepotrzebnym sprzętem jeśli się rozmyślisz odnośnie swojego projektu. Jest jednak jeden scenariusz, który może uniemożliwić Ci korzystanie z chmury — bardzo delikatne dane. Żeby bowiem działać w chmurze, musisz tam wrzucić dane. A chmura to tak naprawdę dużo komputerów kogoś innego. A nie wszystkie dane mogą opuszczać własną infrastrukturę. Dlatego też czasem po prostu nie mamy tego dylematu — sprzęt lokalny czy chmura, bo prawnicy rozwiązali go za nas. Tak czy owak, warto mieć na uwadze tę opcję.

Artykuł Cloud – kalendarz adwentowy #23 pochodzi z serwisu Jak badać dane?.

StarCraft – kalendarz adwentowy #22

Damian — Sun, 22 Dec 2019 16:00:44 +0000

Uczenie maszynowe nie jest dziedziną nauki bardzo odległą od teorii gier. Teoria gier zajmuje się szukaniem strategii działania w sytuacji gdy dwa lub więcej obiektów działają w jednym środowisku i występuje między tymi obiektami konflikt interesów. Natomiast uczenie maszynowe, a w szczególności uczenie maszynowe ze wzmocnieniem, pokazuje nam jak na podstawie obserwacji tego środowiska (dane) zmaksymalizować metrykę (nasz interes). I mimo iż czasem wydaje nam się, że jesteśmy w tej grze sami, to często gramy po prostu przeciwko naturze, która jest chaosem. Okej, mamy już więc luźno spięte uczenie maszynowe i teorię gier. Gdzie w tym wszystkim jest StarCraft?

Uczenie ze wzmocnieniem

Okazuje się, rozwiązywanie problemów typu uczenie nadzorowane bazujące na ramkach danych, dla niektórych osób jest zbyt nudne. Sytuacja w tych problemach jest jasna, a problem jest dobrze zdefiniowany. Wystarczy tylko wybrać jakiś model i tyle. Ciekawsze natomiast wydają się tematy, które nie mają jasno zdefiniowanego sukcesu. Albo inaczej — sukces jest bardzo dobrze zdefiniowany (wygraj), ale ilość sposobów jak go osiągnąć jest praktycznie nieograniczona. Trudno więc łatwo ocenić, które konkretnie działanie jest tym dobrym, a które tym złym.

Żeby trochę obejść ten problem, zastosowano pewną sztuczkę. Nie będziemy zbyt dokładnie określać poszczególnych kroków, będziemy natomiast premiować za działania, które wydają się dobre, a karać za te, które wydają się złe. Dodatkowo będziemy premiować dużą nagrodą jeśli uda się osiągnąć cel. Taka definicja rozwiązywania problemu to uczenie ze wzmocnieniem.

StarCraft

I w taki właśnie sposób trenowany był model, który ostatecznie wygrał w grę planszową Go. Jednakże granie w Go, to także był relatywnie prosty problem — typy ruchów były bardzo ograniczone (połóż kamień), a model miał przez cały czas dostęp do widoku całej planszy do gry. A co gdyby część informacji była ukryta?

StarCraft to komputerowa gra strategiczna, gdzie informacja o poczynaniach przeciwnika jest faktycznie ukryta. Gracz, jak i przeciwnik mają do dyspozycji gamę kilkunastu jednostek bojowych o różnych cechach. Mogą także realizować różnorakie strategie typu zwiad i nękanie. Albo ukrywanie się i akumulacja zasobów. Może to być też akumulacja armii i zastawianie pułapek. Mogą również dowolnie miksować te podejścia. Z punktu widzenia możliwości potencjalnych działań złożoność tutaj jest ogromna. Zresztą, wystarczy spojrzeć na przykładową kompilację momentów z tej gry:

Sam nie do końca rozumiem, co tam się dzieje w niektórych momentach. Czyż nie brzmi to jak fajny problem do rozwiązania przy pomocy uczenia maszynowego?

PySC2

Do takiego wniosku musieli dojść inżynierowie z DeepMind, bo udało im się dogadać z autorami gry StarCraft — firmą Blizzard i wspólnie przygotowali środowisko do tworzenia sztucznej inteligencji grającej właśnie w tę grę. Środowisko to nazywa się PySC2 i jest rozwijane jako projekt open source bazujący na Pythonie. Czy potrzebujemy czegoś więcej?

Okazuje się, że tak. Ale to również zostało uwzględnione w tym projekcie. Pierwszy element, którego mogłoby nam brakować to dane. Dostajemy tutaj całą masę replayów gier ligowych z kilku ostatnich lat. Są tam wymiatacze, ale też gracze niedzielni. Mamy więc całe spektrum pomysłów.

Drugim elementem, którego nam może brakować to środowisko do symulacji. W uczeniu ze wzmocnieniem nasz proces wygląda bowiem następująco: agent (czyli model) obserwuje świat. Po obserwacji podejmuje decyzję. Działa na podstawie tej decyzji. Obserwuje, jak świat zareagował (czyli wraca na początek tej pętli). Wszystko to się powtarza, aż agent wygra lub przegra. W naszym przypadku będziemy po prostu potrzebowali gry, w którą nasz model będzie mógł grać. I ją również dostajemy w zestawie. W systemie Windows możemy mieć nawet podgląd z poziomu gry jak nasz agent AI sobie radzi. Na Linuksach musimy się natomiast zadowolić prostrzą wizualizacją poczynań naszego agenta:

StarCraft — Podsumowanie

Projekt PySC2 powstał jako próba udowodnienia, że z odpowiednią ilością danych i mocy obliczeniowej możemy próbować wytrenować sztuczną inteligencję, zdolną pokonać człowieka w typowo człowieczych zadaniach. No bo klasyczne boty grające w StarCrafta zupełnie sobie w niego nie radziły i nie stanowiły nawet sensownych sparring partnerów dla topowych ligowych zawodników. I zdaje się, że powoli najnowsze AI wytrenowane przy pomocy tego systemu zbliżają się do pokonania najlepszych światowych graczy. Najfajniejsze jest to, że Ty też możesz wytrenować swoje super AI i powalczyć z najlepszymi. Daj znać, jak Ci poszło!

Artykuł StarCraft – kalendarz adwentowy #22 pochodzi z serwisu Jak badać dane?.

Big Data – kalendarz adwentowy #21

Damian — Sat, 21 Dec 2019 16:00:20 +0000

Duże zbiory danych nie są niczym nowym. Jeżeli danych jest więcej, niż jesteśmy w stanie wygodnie wczytać i przetworzyć w naszym ulubionym programie to możemy sobie pomyśleć, że mamy do czynienia z faktycznie dużym zbiorem danych. W języku angielskim powstał specjalny termin określający duże zbiory danych — Big Data. Ale czy sam brak możliwości wczytania danych do pamięci sprawia, że faktycznie mamy do czynienia z Big Data?

Czy Big Data to coś więcej niż tylko większy zbiór danych?

Okazuje się, że według aktualnie przyjętej ogólnej definicji big data, dane te różnią się nieco od odpowiednio dużego zwykłego zbioru danych (takiego jak np. MNIST). Zerknijmy na obrazek pomocniczy pochodzący z Wikipedii:

Big Data

" data-image-caption="

Big Data

" data-medium-file="https://i0.wp.com/jakbadacdane.pl/wp-content/uploads/2019/12/Big_Data.png?fit=300%2C207&ssl=1" data-large-file="https://i0.wp.com/jakbadacdane.pl/wp-content/uploads/2019/12/Big_Data.png?fit=612%2C422&ssl=1" class="size-medium wp-image-1551" src="https://i0.wp.com/jakbadacdane.pl/wp-content/uploads/2019/12/Big_Data.png?resize=300%2C207&ssl=1" alt="Big Data" width="300" height="207" srcset="https://i0.wp.com/jakbadacdane.pl/wp-content/uploads/2019/12/Big_Data.png?resize=300%2C207&ssl=1 300w, https://i0.wp.com/jakbadacdane.pl/wp-content/uploads/2019/12/Big_Data.png?w=612&ssl=1 612w" sizes="auto, (max-width: 300px) 100vw, 300px" />

Cechy danych
By Ender005 – Own work, CC BY-SA 4.0, Link

Mamy wyróżnione tutaj trzy cechy, które charakteryzują dane: Volume, Velocity i Variety.

Volume (z angielskiego objętość) to najbardziej intuicyjna cecha. Chodzi tutaj po prostu o ilość danych. Na komputerach osobistych operujemy raczej w zakresie MB — GB. Natomiast w omawianym przypadku są to zbory PB+ danych. Zdecydowanie inny zakres.

Velocity (z angielskiego prędkość) to cecha, która mówi nam o przyroście naszego zbioru danych. I znów, na komputerach osobistych działamy albo z paczką danych, którą ktoś nam jakoś dostarczył, albo np. pobieramy ją sobie z bazy danych. W czasie naszej pracy dane te raczej się nie zmieniają. A w świecie Big Data pracujemy praktycznie na danych, do których w sposób ciągły dopisywane są nowe obserwacje.

Variety (z angielskiego różnorodność) to cecha, która chyba najbardziej odróżnia Big Data od Small Data. Chodzi tutaj o to, że w kategorii pracy Small Data nasze dane są jednorodne. Są to np. pliki csv, bazy danych albo katalog z obrazkami. A w przypadku Big Data mamy często do czynienia z połączonymi ze sobą wieloma rodzajami danych. Mamy np. informacje czasowe, połączone z działaniami użytkowników, wyniki tych działań, stan systemu, temperaturę powietrza, ostatnie tweety Donalda Trumpa, aktualną promocję na Wiedźmina 3, cenę żelaza w ciągu ostatniego roku w Pakistanie oraz zdjęcie satelitarne portu w Rotterdamie. Przykład ten jest, przyznaję, dość dziki, ale obrazuje on jakiego typu informacje czasem są łączone w celu podjęcia decyzji w systemach Big Data.

Jak zacząć w domu?

Odpowiedź na to pytanie jest rozczarowująca. Nie znam aktualnie żadnego sensownego sposobu jak wgryźć się w temat w amatorskim domowym zaciszu. Jeżeli naszych danych jest dużo, ale są bliskie ramki danych, to w środowisku Python pomocny będzie Dask. Ale to wciąż będzie Scikit-Learn i Pandas „na sterydach”.

Najbliższe ideowo prawdziwemu systemowi Big Data na laptopie jest CDH, czyli platforma open source Hadoop oferowana przez firmę Cloudera. Pobierzesz tam obrazy maszyn wirtualnych, które mają skonfigurowaną platformę Hadoop, która często jest używana w takich rozwiązaniach. Pozostanie Ci jednak jeszcze najtrudniejsza sprawa — zdobycie odpowiednich danych i sformułowanie odpowiedniego problemu. Ale to już pozostawiam Tobie drogi czytelniku.

Big Data — Podsumowanie

Jak widzisz, sam duży zbiór danych to nieco za mało, żeby dobrze wgryźć się w to zagadnienie. Wokół Big Data oprócz problemów analitycznych powstała też cała masa problemów inżynieryjnych — jak przechowywać te dane, jak je zabezpieczać, udostępniać i przemieszczać? Jak je zbierać i dostarczać? Jak zadbać o odtwarzalność analiz i audyty podjętych decyzji? Trzeba więc tutaj posiadać nieco inny zbiór umiejętności niż na przykład w uczeniu maszynowym albo analityce. Ale kto wie, może akurat Tobie bardziej to przypasuje.

Artykuł Big Data – kalendarz adwentowy #21 pochodzi z serwisu Jak badać dane?.

Przetwarzanie obrazów – kalendarz adwentowy #20

Damian — Fri, 20 Dec 2019 16:00:39 +0000

Jeżeli przejrzałeś wcześniejsze wpisy z tej serii, to być może kojarzysz już zbiór danych MNIST. Zbiór ten jest o tyle ciekawy, że można go próbować ugryźć na co najmniej dwa sposoby. Jedno z takich podejść to analiza piksel po pikselu, a drugie to całościowe przetwarzanie obrazów. Chciałbym Ci pokrótce nakreślić ideę tego drugiego podejścia.

Analiza pojedynczych pikseli

Obrazki ze zbioru MNIST mają rozdzielczość 28 × 28 pikseli, gdzie każdy piksel posiada szarość — czyli wartość od 0 do 255. W każdym obrazku mamy więc 784 liczby. Możemy więc przerobić każdy taki obrazek na obserwację w ramce danych i zastosować jakieś klasyczne podejście z asortymentu uczenia maszynowego. Może to być np. metoda najbliższych sąsiadów. I możemy uzyskać całkiem sensowne wyniki.

Przetwarzanie obrazów z wykorzystaniem splotu

Faktem jest, że jeżeli widzimy jakąś cyfrę, to nie analizujemy jej po pikselu (albo mikrometrowych plamkach atramentu), ale spoglądamy na nią całościowo. Zanim jednak opanujemy tę umiejętność, to musimy się nauczyć interpretować te kształty. Dowiadujemy się (najczęściej jako dzieci), że np. jeden to kijek z małym daszkiem, a ósemka to bałwanek. Zbierając te „podpowiedzi” jesteśmy w stanie określić, na jaką cyfrę patrzymy. A może da się zmusić komputer do czegoś podobnego?

Okazuje się, że mamy w algebrze taką sprytną funkcję, która nazywa się splot (albo z angielskiego konwolucja). Jeśli chodzi o przetwarzanie obrazów, to jest to przechodzenie małą macierzą (zwaną filtrem) zaświeconych lub zgaszonych „pikseli”, po dużej macierzy oryginalnego obrazka. W czasie takiego przechodzenia zwyczajnie mnożymy ze sobą wartości, sumujemy je i wrzucamy do mniejszej wynikowej macierzy. I oczywiście zdaję sobie sprawę, że niczego w ten sposób nie wytłumaczyłem. Pozwolę wiec sobie tutaj wkleić całkiem fajny filmik od Andrew Ng, który doskonale to tłumaczy:

Oczywiście nie jest to koniec tematu. Tak uzyskana macierz wynikowa jest później pomniejszana, a następnie nakładane są na nią kolejne filtry. Te kolejne filtry w wyniku treningu sieci neuronowej są coraz bardziej skomplikowane i mogą przypominać pewne znajome dla nas kształty — np. twarze, koła rowerowe i tym podobne. W ten sposób niejako zmuszamy komputer do przejścia od szczegółu do ogółu.

Przetwarzanie obrazów — Podsumowanie

Sieci neuronowe oparte o konwolucyjne przetwarzanie obrazów nie są niczym szczególnie bardziej skomplikowanym niż zwykłe sieci neuronowe. Wciąż mamy tam macierze, wciąż mamy tam mnożenie i dodawanie. Wciąż mamy tam, zupełnie tak samo jak mają ogry i cebula, warstwy. Ale dzięki takim sprytnym operacjom nasz komputer zaczyna widzieć. Nie zawsze widzi tak, jak my byśmy widzieli, ale czasem nawet i tak się zdarza.

Artykuł Przetwarzanie obrazów – kalendarz adwentowy #20 pochodzi z serwisu Jak badać dane?.

Ramka danych – kalendarz adwentowy #19

Damian — Thu, 19 Dec 2019 16:00:58 +0000

Chyba powtórzę po raz kolejny na tym blogu moją opinię, że często najwięcej czasu zajmuje nam sformułowanie problemu i jakiejś sensownej metryk do oceny jego rozwiązania. Bowiem gdy już mamy nasze dane i odpowiednio je przetworzyliśmy, to możemy szybko i śmiało eksperymentować. Jeżeli celujemy w uczenie nadzorowane, które nie wymaga przetwarzania obrazów, tekstu ani dźwięku, to już w ogóle możemy prawie zawsze wskazać praktyczny moment, od którego jest już z górki. Ten moment to sytuacja, w której z naszych surowych danych i pomysłu na ich przetworzenie powstała ramka danych.

Co to jest ramka danych?

Jeśli używałeś kiedyś arkusza kalkulacyjnego, to już masz pewną intuicję, czym może być ramka danych. Ramka danych (po angielsku data frame), podobnie jak arkusz kalkulacyjny składa się ze zorganizowanej struktury kolumn i wierszy. Przyjmujemy w uproszczeniu, że w uczeniu nadzorowanym każdy wiersz odpowiada jednej obserwacji jakiegoś zjawiska, a jedna kolumna opisuje cechy niezależne. Na przecięciu kolumny i wiersza mamy wartość danej cechy dla danej obserwacji. Brzmi skomplikowanie? Spójrz na poniższy rysunek:

CD PROJEKT

" data-image-caption="

CD PROJEKT

" data-medium-file="https://i0.wp.com/jakbadacdane.pl/wp-content/uploads/2019/02/028-dataframe.png?fit=300%2C122&ssl=1" data-large-file="https://i0.wp.com/jakbadacdane.pl/wp-content/uploads/2019/02/028-dataframe.png?fit=467%2C190&ssl=1" class="wp-image-851 size-full" src="https://i0.wp.com/jakbadacdane.pl/wp-content/uploads/2019/02/028-dataframe.png?resize=467%2C190&ssl=1" alt="CD PROJEKT" width="467" height="190" srcset="https://i0.wp.com/jakbadacdane.pl/wp-content/uploads/2019/02/028-dataframe.png?w=467&ssl=1 467w, https://i0.wp.com/jakbadacdane.pl/wp-content/uploads/2019/02/028-dataframe.png?resize=300%2C122&ssl=1 300w" sizes="auto, (max-width: 467px) 100vw, 467px" />

CD PROJEKT

Mamy tutaj wycinek kursu akcji spółki CD PROJEKT. Każdy wiersz jest ponumerowany. W naszym przypadku jest to data. Każda kolumna opisuje jakąś konkretna wartość uzyskaną konkretnego dnia. Mamy tutaj jedną zupełnie zbędną kolumnę o nazwie „Name” która posiada stałą wartość — należałoby więc ją usunąć. Dodatkowo możemy się domyśleć, że wartości z kolumn „Open”, „High”, „Low”, „Close”, „Volume” zostały zaobserwowane, a z kolumny „SMA” wyliczone. Napisałem, że można się domyśleć, bo to obrazek z mojego bloga, wiem więc w jaki sposób powstał. W normalnej sytuacji powinniśmy jednak dokumentować powstanie każdej kolumny i wszystkie transformacje, które na niej dokonujemy.

Dwa dodatkowe potencjalne elementy ramki danych

Jak zapewne zauważyłeś, kolumna „Date” jest podpisana w inny sposób. Jest tak dlatego, że jest to specjalna kolumna zwana indeksem. Taki indeks generalnie nie jest używany w procesie uczenia maszynowego, pozwala nam natomiast identyfikować obserwacje w naszej ramce danych. W powyższym przypadku jest to data, ale równie dobrze może to być np. liczba całkowita, albo UUID. Ważne jednak jest, żeby wartość ta była unikatowa. Wtedy możemy się zawsze dostać do jednej konkretnej obserwacji.

Drugi element ramki danych używany w uczeniu nadzorowanym, to nasza kolumna zależna. Jest to po prostu kolumna, którą chcemy przewidzieć. Nie musi ona w żaden specjalny sposób być oznaczana. Informacja ta musi się jednak znajdować gdzieś w dokumentacji. W powyższym przypadku nie ma jednoznacznie wyznaczonej takiej kolumny. Ale może to być np. kolumna „Close”, jeśli będziemy chcieli na podstawie pozostałych informacji przewidzieć wartość na zamknięcie dnia giełdowego.

Ramka danych — Podsumowanie

Jeżeli w procesie rozwiązywania Twojego problemu dysponujesz ramką danych, albo danymi, które da się łatwo przekształcić do takiej formy, to jesteś praktycznie w domu. Okazuje się bowiem, że i język R oraz Pandas wraz ze Scikit-Learn idealnie wspierają pracę z tym formatem danych. Dodatkowo jest on intuicyjny do szybkich wizualizacji oraz do naocznego podglądu. No a jeśli jeszcze pracujemy z ludźmi od arkuszy kalkulacyjnych, to łatwiej też nam jest się z nimi komunikować właśnie za pomocą takich sprytnych ramek danych.

Artykuł Ramka danych – kalendarz adwentowy #19 pochodzi z serwisu Jak badać dane?.

GNU R – kalendarz adwentowy #18

Damian — Wed, 18 Dec 2019 16:00:11 +0000

Do efektywnego wykorzystania uczenia maszynowego, bardzo często wystarczy nam znajomość języka programowania Python i jakichś stworzonych dla niego bibliotek pomocniczych. Czasem chcemy jednak przeanalizować jakieś dane bez uczenia głębokiego. Albo chcemy wyliczyć jakieś statystyki z nimi związane. Może przygotować jakieś opracowanie do publikacji? Czy jesteśmy tutaj również skazani na Pythona? Okazuje się, że nie. Istnieje bowiem język programowania o dość enigmatycznej nazwie GNU R, który również może nam pomóc w analizie danych.

GNU R — idea

Według Wikipedii język R jest o około trzy lata młodszy od Pythona. Nie jest to jednak język, który powstał jako język ogólnego zastosowania. Głównym celem jego powstania było zaimplementowanie fajnych pomysłów z języków S i Scheme. Jak może domyślasz się po nazwie, podstawowy interpreter języka R został opublikowany na licencji GPL.

Dlaczego GNU R jest fajny?

Jedną z podstawowych zalet GNU R jest jego wbudowane wsparcie dla analiz statystycznych. GNU R po prostu powstał z myślą o wspieraniu programisty właśnie w tych analizach. Mamy tam modelowanie liniowe i nieliniowe, analizę szeregów czasowych, grupowanie, agregowanie, wizualizacje i wiele więcej. Jeśli znasz Pythona, to możesz sobie wyobrazić tutaj wbudowanie Scikit-Learn i Pandas.

Oczywiście wbudowane w GNU R funkcje to nie wszystko. Jak każdy szanujący się język programowania, GNU R posiada w sieci miejsce, gdzie twórcy rozszerzeń mogą je swobodnie publikować i utrzymywać. Najpopularniejsze miejsca dla GNU R to The Comprehensive R Archive Network (CRAN) i Bioconductor. To pierwsze to repozytorium zawierające dodatkowe biblioteki raczej ogólnego przeznaczenia. To drugie natomiast specjalizuje się w dodatkach dotyczących analiz genetycznych i innych podobnych biologiczno-medycznych zagadnień. Obydwa te repozytoria są dość dobrze moderowane, dzięki czemu biblioteki w nich dostępne można uznać za raczej bezpieczne i efektywne.

IDE dla GNU R

Sam bazowy interpreter języka R jest uruchamiany w interaktywnym terminalu tekstowym. Można również od razu uruchamiać całe skrypty w języku R. Nie jest to jednak najwygodniejszy sposób pracy. Jeśli więc zaczynasz dopiero swoją przygodę z GNU R, to chciałbym polecić Ci dwa wygodniejsze rozwiązania. Pierwsze jest już Ci być może znane. Jest to IDE Jupyter Notebook. Możesz go używać tak samo jak z Pythonem. Wystarczy tylko, że zmienisz tzw. kernel, który uruchamia Twój kod. Drugie środowisko to bardziej „klasyczne” R Studio, które posiada podgląd stanu pamięci, powłokę interaktywną, edytor kodu i przeglądarkę katalogów. Wszystko, co może Ci być potrzebne jeśli preferujesz bardziej programistyczny styl pracy.

Żeby było jeszcze fajniej, całe podstawowe środowisko R i obydwa edytory dostępne są z poziomu dystrybucji Anaconda. I żeby to wszystko zainstalować na swoim systemie, wystarczy tylko jedno polecenie. Nieźle, nie?

GNU R — Podsumowanie

Język R to bardzo ciekawe i przydatne narzędzie w świecie pracy z danymi. Z jednej strony jest to język nieco mniej uniwersalny niż Python. Nieco ciężej jest tam na przykład uruchomić skalujący się dynamicznie serwis, który jest usługą webową tak jak np. przy pomocy Django. Z drugiej strony jednak jeśli pracujesz w medycynie i zajmujesz się badaniami statystycznymi, to właśnie tutaj będziesz szukał bibliotek, które implementują najnowsze publikacje z tej dziedziny. Przygotowanie publikacji naukowej również może okazać się łatwiejsze właśnie przy pomocy zestawu narzędzi zbudowanych wokół języka R. Nie jest też niczym nadzwyczajnym używanie go na równi z Pythonem w ramach jednego projektu. A, że jest to język zdecydowanie mniej popularny niż Python, to może okazać się, że posiadanie jego znajomości w portfolio umiejętności, realnie przekłada się na większe zarobki. Ech, żeby jeszcze tylko doba była dłuższa o parę godzin.

Artykuł GNU R – kalendarz adwentowy #18 pochodzi z serwisu Jak badać dane?.