Skip to content

Tietoalustojen trendit 2024: Lakehouse-arkkitehtuurin nousu ja Microsoft Fabricin innovatiiviset ratkaisut 

Feb 15, 2024 9:33:27 AM Otto Jääskeläinen, Senior Consultant, Data & Analytics

Vuosi 2024 on jo vauhdilla pyörähtänyt käyntiin ja minkälainen vuosi onkaan tulossa! Data-alustojen trendit ovat siirtyneet yhä enemmän Lakehouse-pohjaisiin toteutuksiin viime vuosina ja vuosi 2024 näyttää vahvistavan tätä ilmiötä entisestään. Transaktiokanta-pohjaiset data-alustat joutuvat tekemään tilaa uusille teknologioille ja tässä kyydissä on syytä pysyä mukana.

Tämä blogi auttaa teknisiä liiketoimintapäättäjiä ohjaamaan organisaatioitaan tehokkaammin datavetoisessa maailmassa. Voit lukea: 


Lakehouse-arkkitehtuurin nousu 

Vuoden 2024 tietoalustojen trendit korostavat Lakehouse-arkkitehtuurien kasvavaa suosiota, keskittyen erityisesti kustannustehokkuuteen ja käyttömukavuuteen. Lakehouse-arkkitehtuurit ovat nousseet esiin niiden kyvystä yhdistää tietovarastojen hallinnan ja datajärvien joustavuuden parhaat puolet, mikä tukee tehokasta analytiikkaa ja päätöksentekoa.

Tuoreen kyselyn mukaan 65 % vastanneista yrityksistä käyttää enemmistöä analytiikastaan Lakehouse-alustoilla, ja 70 % uskoo, että yli puolet kaikista analytiikoistaan tulee olemaan Lakehouse-alustoilla kolmen vuoden sisällä. Tämä siirtymä on johtanut merkittäviin kustannussäästöihin, jossa yli puolet vastaajista raportoi säästävänsä yli 50 % analytiikkakustannuksista siirtymällä Lakehouse-alustoihin. 

Mutta miksi markkina ohjautuu Lakehouse-pohjaisiin alustoihin niin kovaa vauhtia

Syitä on useita, mutta yksi tärkeimmistä on monimuotoisen datan helpompi tuonti ja nopeampi saavutettavuus alustalta. Tämä tarkoittaa suoraan myös sitä, että dataa päästään hyödyntämään ja itse ratkaisua kehittämään nopeammin, kun integraatioiden ja transformaatioiden kehittämiseen ei mene niin paljon aikaa. 

Lakehouse-alustoille yleistä on myös selvästi erotetut Compute- ja Storage-kerrokset. Compute-kerros sisältää monia eri mahdollisuuksia datan prosessointiin, mikä nopeuttaa erilaisten toiminnallisuuksien kehittämistä ja tuo ennen kaikkea vaihtoehtoja kehittäjille. AI-buumin ollessa tällä hetkellä kuumimmillaan, Lakehouse-pohjainen data-alusta voi tuoda helpotusta myös tähän murrospaineeseen yrityksissä, koska omia malleja päästään kehittämään ja testaamaan saman alustan ja saman datan päälle. 

"AI-buumin ollessa tällä hetkellä kuumimmillaan, Lakehouse-pohjainen data-alusta voi tuoda helpotusta myös tähän murrospaineeseen yrityksissä, koska omia malleja päästään kehittämään ja testaamaan saman alustan ja saman datan päälle."

 

Microsoft Fabricin rooli Lakehouse-pohjaisten alustojen nousussa

Microsoft Fabric julkaistiin marraskuussa 2023 yleiseen saatavuuteen ja Lakehouse-pohjaisten alustojen suosion noustessa se tulee olemaan merkittävässä roolissa. Fabricia on tituleerattu merkittävimmäksi Microsoftin datajulkaisuksi sitten SQL Serverin, mikä on toki aika paljon sanottu, kun tiedetään SQL Serverin rooli datatekemisessä menneinä vuosikymmeninä. 

Kuitenkin jotain perää tässä saattaa olla.  

Microsoft Fabric pyrkii olemaan ns. yhden luukun palvelu. Microsoft Fabric yhdistää Lakehouse-alustoille tyypillisen Spark Compute Enginen ja transaktiotietokantapohjaisista data-alustoista tutut T-SQL kyvykkyydet, tarjoten keskitetyn datan varastointiratkaisun OneLaken kautta. Tämä mahdollistaa datan monipuolisen tuonnin ja varastoinnin sekä SQL Endpointin kautta helpon saavutettavuuden.

OneLakeen voidaan tuoda monipuolisesti dataa eri formaatissa esimerkiksi Fabric Data Factorylla, joka on Fabricin ETL-palvelu, joka on hyvin pitkälti johdettu alkuperäisestä ja kaikille tutusta Data Factorystä. Data tallennetaan sekä Fabricin Lakehousessa (Spark Compute) että Fabricin Warehousessa (SQL Engine) OneLakeen Delta Parquet -formaatissa ja deltataulut ovatkin saavutettavissa kummassakin tapauksessa SQL Endpointin kautta.  

Lisäksi Fabric Warehousessa voidaan prosessoitua dataa kysellä tutulla T-SQL-syntaksilla suoraan Fabricin Lakehousesta ja materialisoida sitä uusiksi deltatauluiksi Warehousen puolelle, kätevää! Fabricin Lakehouse tukee kaikkia tuttuja Spark-ympäristöille ominaisia kieliä kuten Python, R, Scala ja Spark SQL. 

Kirsikkana kakun päällä Fabric tuo mukanaan Direct Lake -semanttisen mallin. Se mahdollistaa reaaliaikaisen datan tarjoilun Power BI-raportointipalveluun ilman erillisten datapäivitysten suorittamista semanttiseen malliin datan päivittyessä malliin taustalla suoraan OneLakesta. Täysin ainutlaatuinen toiminnallisuus!


Siirtymä Microsoft Fabriciin

Siirtymä Microsoft Fabriciin on toteutettavissa helpommin kuin perinteisten data-alustojen ja niiden käyttämien teknologioiden kohdalla. 

Mahdollisesti jo olemassa olevia integraatioita, joissa dataa on ladattu esimerkiksi AWS:n S3:een tai Azure ADLS Gen2:een, voidaan suoraan hyödyntää Fabricissa ns. shortcuttien kautta, jolloin erillisiä uusia integraatioita ei tarvitse rakentaa. Täten esimerkiksi olemassa olevat Databricks-toteutukset voidaan tuoda helposti osaksi Fabricin päälle kehitettävää data-alustaa. 

Lisäksi myös Fabricin Dataverse Link mahdollistaa esimerkiksi Dynamics-ympäristöistä datan tuonnin Fabriciin ilman uusien integraatioiden pystyttämistä. Kaiken keskiössä on siis datan saaminen lähdejärjestelmistä OneLakeen, joka siis Storage-tyyppisenä komponenttina tukee monipuolisesti kaiken tyyppistä dataa. Vastaavaa transformaatiotarvetta, kuten transaktiokantojen kohdalla, ei siis ole. Tämä tarkoittaa, että itse arvoa tuottavaan osuuteen, datan analysointiin, mallintamiseen ja laskentaan päästään nopeammin käsiksi, jolloin myös tuloksiin päästään nopeammin. 

Fabricin käyttöönotto on helppo aloittaa kevyesti hyödyntämällä dataa jo olemassa olevilta, kehitetyiltä alustoilta ja mahdollisia migraatiotarpeita voidaan selvittää matkan varrella missä tahansa alustan elinkaaren vaiheessa. twodaylla on vahva kokemus sekä täysin uusista toteutuksista, mutta myös migraatioista, ja olemmekin jo päässeet toteuttamaan myös migraatioita Fabriciin. 

"Siirtymäpolut moderniin data-alustaan Microsoft Fabricin avulla" -webinaarissamme kerromme käytännön esimerkkien kautta, kuinka siirtyä moderniin data-alustaan Microsoft Fabricin avulla ja kuinka se toimii dataohjatun liiketoiminnan tukena.

 

🎥 Katso webinaaritallenne

Automatisaation ja kolmansien osapuolien työkalujen rooli

Sparkin tukemat ohjelmalliset kielet mahdollistavat automatisaation nopean kehityksen moneen toiminnallisuuteen. 

Automatisaatiota voidaan hyödyntää eritoten dynaamisissa lähdelatauksissa, stage-kerroksen muodostamisessa landing-tiedostojen pohjalta sekä ensimmäisessä mallinnuskerroksessa eli ns. raa’an liiketoimintakerroksen muodostamisessa, jossa liiketoimintalogiikkaa ei vielä ole sisällä. Lakehouse-arkkitehtuurin kultakerros on yleensä kerros, jossa liiketoiminta- ja laskentalogiikat muodostetaan ja yleensä tässä vaiheessa automatisaation toteuttaminen ei ole enään niin keskiössä. 

Raa’an liiketoimintakerroksen muodostamisessa on monia eri mahdollisuuksia. Kaiken keskiössä on kuitenkin metadatan hyödyntäminen. Tämä sen vuoksi, koska tämän raa’an kerroksen muodostaminen on mahdollista ilman ylläpidettävän koodin kirjoittamista. Kunhan metadata on halutuista tietueista saatu muodostettua, jota voi vauhdittaa esimerkiksi kolumni mäppäysten generointi stage-datan pohjalta, voidaan valita tapa, jolla itse raa’an business kerroksen taulut ja lataukset muodostetaan. Vaihtoehtojen joukossa on muodostaa esimerkiksi pysparkilla (Python API Spark Compute) scriptit latureiden generoimiseksi metadatan pohjalta ja toki tähän on myös silloin helppo sisällyttää mahdollisia erikoistarpeita. 

Yksi varmasti monia kiinnostava teknologia tässä kontekstissa on dbt. dbt on käytännössä templatointiteknologia SQL:n kirjoittamiseen, joka tukee montaa eri alustaa ja osaa kääntää kirjoitetun SQL:n valitulle alustalle sopivaksi. dbt:n etuja ovat modulaarisuus ja toisteisen SQL:n generointi templatoinnin avulla. Versionhallinta, testaus ja dokumentaation generointi onnistuvat lisäksi kätevästi dbt:llä! Myös dbt:n kohdalla raa’an business kerroksen generointi kannattaa tehdä metadatapohjaisesti, koska muuten myös dbt:n kohdalla ajaudutaan turhaan ylläpidettävän koodin pariin. 

Yhteenvetona voisi todeta, että automatisaation rooli Lakehouse-alustoilla on yhtä keskeinen kuin aiemminkin, mutta mahdollisuuksia sen toteuttamiseen on enemmän kuin perinteisillä teknologioilla toteutetuilla data-alustoilla! 

Kolmansien osapuolien työkalujen ja teknologioiden käyttö yleistyy kovaa vauhtia ja eritoten Lakehouse-pohjaisten data-alustojen kohdalla näiden käyttäminen tulee yleistymään entisestään. Microsoft Fabric tulee olemaan keskeinen teknologia jo tänä vuonna Lakehouse-pohjaisissa toteutuksissa ja tukia eri kolmansien osapuolien teknologioihin julkaistaan kovaa tahtia.  



twoday on Suomen kokenein Microsoft Fabric -asiantuntija

twoday oli mukana jo Fabricin Private Preview-vaiheessa ja olemmekin päässeet jo toteutuksien kimppuun ensimmäisinä Suomessa. Aiemmissa blogiteksteissämme olemme kertoneet, kuinka Microsoft valitsi meidät yksinoikeudella Suomessa Microsoft Fabricin yksityiseen ennakkokäyttöohjelmaan ja meillä on kertynyt arvokasta kokemusta tästä uuden sukupolven tietoalustasta vuoden 2023 alusta. Tämän ansiosta olemme kokenein Microsoft Fabric -asiantuntija Suomessa ja voimme varmasti auttaa teitäkin hypyssä uudelle data-alustojen aikakaudelle. 

 


 

Kirjoittajasta: Otto Jääskeläinen, Senior Consultant

Otto Jääskeläinen on työskennellyt modernien data-alustojen parissa seitsemän vuoden ajan, pääosin Microsoft Azuren komponentteja hyödyntäen. Hänellä on kokemusta sekä tietovarastoista että erilaisten sovellusten dataratkaisujen luomisesta ja suunnittelusta. Viime aikoina Otto on keskittynyt erityisesti Lakehouse-arkkitehtuuria käyttäviin projekteihin. Hän on myös kehittänyt twodayn omia menetelmiä ja automatisaatio-viitekehyksiä Lakehouse-toteutuksiin. Lisäksi Otto on ollut mukana Microsoft Fabricin Private Preview-vaiheessa ja tehnyt ensimmäisiä asiakasprojekteja Suomessa Fabricilla.

Jääskeläinen työskentelee Senior Consultantina twodayn Data & Analytiikka -tiimissä.

 

Aiheeseen liittyvät artikkelit