Datapohjaisen päätöksenteon analyysit, koneoppiminen ja tekoäly ovat tämän päivän kristallipallo. Hämyinen ja samettiverhoiltu teltta on vaihtunut mystisiin piilotettuihin kerroksiin, hyperparametreihin sekä aktivaatiofunktioihin. Ennustamista tarvitaan, jotta voidaan varautua tulevaan, onpa sitten kyseessä pörssiosakkeen arvon kehittyminen tai tuotteen valmistamiseen tarvittavien komponenttien varastomäärä. Yritysten, julkishallinnon ja koko yhteiskunnan eri toimijoiden tavoiteasetanta perustuu suunnitelmiin, jotta toimiminen kompleksisessa ympäristössä on mahdollista.
ITKO-hankkeessa dataa päätöksenteon tueksi tuottavat IoT-anturit. IoT-anturidatan käsittelylle on tyypillistä aikasarjamaisuus, jossa fysikaalinen ilmiö tallennetaan digitaaliseen muotoon ja havaintoon liitetään aikaleima. Datan voi tallentaa esim. aikasarjatietokantaan sen visualisoimiseksi. Kun aikasarjoja halutaan käyttää ennustamiseen, on otettava käyttöön analysointityökalu.
Aikasarjojen perusteita
Aikasarjoissa on mahdollista nähdä kolme eri komponenttia, jotka ovat trendi (aikasarjan systemaattinen muutos), syklinen vaihtelu kuten suhdanne- ja/tai kausivaihtelu sekä satunnainen vaihtelu (Coghlan 2018, 19). Tarkoituksena on, että nämä komponentit esiintyessään erotellaan eli dekomponoidaan, jotta niiden avulla on mahdollista kuvata aikasarjan käyttäytymistä sekä analysoida sitä. Tällöin aikasarjalla on mahdollista myös tehdä ennustuksia.
Aikasarjoilla ennustamista voidaan tehdä muutamalla eri menetelmällä. ARIMA (Coghlan 2018, 48; Prado & West 2010, 77) yhdistää kolme eri menetelmää toisiinsa: AutoRegressio, DIfferensointi ja Moving Average eli tasoitus liukuvilla keskiarvoilla. Jotta ARIMA-menetelmää voi käyttää, on aikasarjan oltava stationaarinen, eli siinä ei saa esiintyä trendiä eikä kausivaihtelua, jolloin muuttujan keskiarvo ja varianssi pysyvät suunnilleen vakioina ajan myötä. Epästationaarinen prosessi voidaan saada stationaariseksi differentioimalla. Lisäksi aikasarjan tulee olla stokastinen, eli satunnaisesti generoitunut. Autoregressiivisen ja liukuvan keskiarvon prosessien asteluvut voidaan selvittää analyysityökalun funktioilla.
ITKO:n datat
ITKO:ssa dataa saadaan Porvoonjoen antureilta (kuten happipitoisuus, virtauslukema), tehtaaseen sijoitetuilta antureilta (tuotantotietoa) sekä rakennuksiin sijoitetuilta antureilta (kuten lämpötila, ilmankosteus). Kaikissa näissä tapauksissa data näyttäytyy aikasarja-tyyppisenä (kuva 1), sillä jokaiseen tuotettuun havaintoriviin liittyy aikaleima. Rakennusdata päätyy osin jo data pipelinea pitkin InfluxDB-tietokantaan, joka on luonnostaan tarkoitettu aikasarjoille. Visualisointia on rakennettu Grafanan avulla, joten näistä syistä varsinainen ennustaminen on tehtävä muualla. Tällä hetkellä analysointityökaluna on R Studio, johon data tuodaan Excel-taulukkomuodossa ja muunnetaan ohjelmallisesti aikasarjatyyppiseksi jatkokäsittelyä varten.
Onkin mielenkiintoista nähdä lopulliset data pipelinet toimimassa sekä niihin liitetty koneoppiminen ennustamisineen ja tulosten näyttämisineen, puhumattakaan siitä, että jokaiselle datalle on löydetty sopivat käsittelymenetelmät.
Kirjoittaja
Minna Asplund, TkL, työskentelee LAB-ammattikorkeakoulussa ohjelmistotekniikan lehtorina tieto- ja viestintätekniikassa sekä ITKO-hankkeessa koneoppimisen asiantuntijana.
Lähteet
Coghlan A. 2018. A Little Book of R For Time Series. Release 0.2. U.K. Cambridge: Parasite Genomics Group, Wellcome Trust Sanger Institute.
Prado, R. & West, M. 2010. Time Series. Modeling, Computation, and Inference. U.S.A. New York: Chapman & Hall/CRC Press, Taylor & Francis Group.
Linkit
Linkki 1. LAB-ammattikorkeakoulu. 2019. ITKO – Yrityslähtöiset IoT-ratkaisut ja koneoppiminen. [Viitattu 28.11.2020]. Saatavissa: https://www.lab.fi/fi/projekti/itko-yrityslahtoiset-iot-ratkaisut-ja-koneoppiminen
Linkki 2. InfluxDB. 2020. Influxdata. [Viitattu 28.10.2020]. Saatavissa: https://www.influxdata.com/
Linkki 3. Grafana. 2020. Grafana: The open observability platform. [Viitattu 29.10.2020]. Saatavissa: https://grafana.com/
Linkki 4. RStudio. 2020. Open source & professional software for data science teams. [Viitattu 28.10.2020]. Saatavissa: https://rstudio.com/
Julkaistu alun perin LAB Focus -blogissa 20.11.2020. Saatavissa: https://blogit.lab.fi/labfocus/aikasarjat-itko-hankkeessa/