Reading view

There are new articles available, click to refresh the page.

PODATKOVNI CENTRI NAMESTO PITNE VODE IN GOZDOV

Na Hrvaškem zasebna podjetja skupaj z državo načrtujejo gradnjo mega podatkovnega centra za umetno inteligenco in obdelavo podatkov, ki bo za svoje delovanje porabil toliko energije, kot celotno mesto Reka. Če bo projekt uresničen, bo to največji podatkovni center v Evropi.

Čeprav mediji in predstavniki kapitala projekt predstavljajo kot potencial za razvoj in veliko gospodarsko pridobitev, podatkovni centri prinašajo okoljsko uničenje, so ogromni potrošniki energije in vode.

Projekt s polnim imenom Pantheon – razvojno in podatkovno središče za umetno inteligenco Topusko– razvija hrvaški podjetnik Jako Andabak v partnerstvu z ameriškimi vlagatelji. Prvi korak k uresničitvi projekta je nedavni podpis pisma o nameri med hrvaškim podjetjem Končar in start-up podjetjem Pantheon Atlas iz Delaware-a, o katerem pa je znano le malo.

Projekt, ki ga nameravajo umestiti v občino Topusko na 120 hektarjev zdaj še pretežno gozdnih površin, vključuje gradnjo transformatorske postaje, približno 280 kilometrov novih daljnovodov, sončne elektrarne z močjo 500 megavatov in nove cestne povezave. Projekt Pantheon bi po navedbah glavnega projektanta Mislava Crnogorca z močjo 1 gigavata porabil okoli 8,76 teravatne ure elektrike letno, kar predstavlja skoraj polovico celotne letne porabe na Hrvaškem.

V letu 2020 je v svetu obstajalo 597 mega (ang. izraz hyper-scale) podatkovnih centrov, 39% v ZDA, 10% na Kitajskem, 6% na Japonskem. Leta 2015 jih je bilo za polovico manj. Večino teh si lastijo Amazon, Google in Microsoft. V zadnjih letih njihova gradnja strmo narašča.

Veliki podatkovni centri lahko v enem dnevu porabijo toliko vode, kot je na dan porabi mesto s 50 tisoč ljudmi. Ogromne količine vode se porabijo že za izdelavo čipov, kasneje pa jo potrebujejo za hlajenje serverjev. Znanstveniki ocenujejo, da za 100 besed, ki jih napišemo v UI vrstico, porabimo eno steklenico vode. Iz ZDA, ki ima največ podatkovnih centrov, slišimo vse več zgodb ljudi, ki so zaradi gradnje podatkovnega centra v njihovi bližini ostali brez pitne vode. BBC je lani poročal o primeru, ko je v Georgi Meta zgradila podatkovni center in onesnažila bližnje zajetje vode, voda je postala rjava, polna sedimentov in nepitna. Prav tako podatkovni centri v neposredni bližini ustvarjajo vroča območja (angl. hot islands).

Podatkovni centri potrošijo tudi ogromno energije. V letu 2020 so porabili med 1 in 2 % svetovne energije, poročajo z Univerze v Oxfordu. Študije Lawerence Berkeley National Laboratory je ocenila, da bodo podatkovni centri do leta 2028 v ZDA predstavljali 12 % vse porabe energije. Prav tako so mnogi podatkovni centri tudi vir onesnaženja zraka in povzročajo globalno segrevanje, saj za svoje delovanje pogosto uporabljajo energijo iz fosilnih goriv. Spomnimo na nedavni dogovor med Microsoftom in Chevronom o izgradnji plinske elektrarne ob novem podatkovnem centru v Teksasu.

Čeprav navadni ljudje umetno inteligenco, ki jo poganjajo podatkovni centri, lahko uporabljamo v vsakem trenutku, pa nam ta jemlje vodo, škoduje okolju, našemu zdravju in pameti. “Umetna inteligenca” je v lasti velikih zasebnih podjetij, njihov namen pa je služenje dobička. V luči tega podjetja skoraj po pravilu sodelujejo tudi z vojsko in so mnogokrat posredno tudi vključena v vojne. Prejšnji teden je Pentagon naznanil, da so z več podjetij za umetno inteligenco podpisali dogovor o možnosti rabe umetne inteligence za vojaške namene. Podjetja NVIDIA,SpaceX, OpenAI, Google, Amazon web service, Microsoft in Reflection bodo v zameno za milijone, ki jih bo zagotovilo ameriško obrambno ministrstvo, zanje razvijalo programe za “vojskovanje z umetno inteligenco”, bojevanje z droni, pomagalo pri odločitvah glede vojaških operacij in podobno.

Projektom, ki uničujejo naravo, pitno vodo in na koncu še sodelujejo v vojnah in genocidih, se moramo delovni ljudje upreti. Kapital svoje projekte zaradi cenejše delovne sile in ohlapnejših okoljskih zakonodaj postavlja na kapitalistično periferijo, na “Balkan”. Toda združeni delovni ljudje lahko dosežemo mnogo – v Srbiji so preprečili multinacionalki Rio Tinto, da bi odprla rudnik litija in uničila porečje reke Jadar. Na Rdeči pesi smo poročali tudi o borbenih ljudeh iz Bosne, ki se borijo za ohranitev narave, proti odprtju rudnikov zlata, svinca, litija in postavitvam ogromnih vetrnih elektrarn s strani številnih multinacionalk, namesto tega pa kot alternativo vzpostavljajo naravne rezervate in regijske parke. Tudi pri nas je uspešen boj proti postavitvi ogromnega vetrnega parka na Pohorju pripeljal do odprtja regijskega Parka Pohorje.

Foto: Streha podatkovnega centra, javna domena

The post PODATKOVNI CENTRI NAMESTO PITNE VODE IN GOZDOV first appeared on Rdeča Pesa.

Umetna inteligenca in slovenski jezik

Medijske predstavitve orodij umetne inteligence so pogosto senzacionalistične in negativistične, saj novinarji in splošna javnost v splošnem slabše razumejo delovanje novih tehnologij. Umetna inteligenca seveda prinaša tudi mnoge nevarnosti, vendar so te pogosto predstavljene skozi prizmo popularne kulture, zlasti filmov, kjer umetna inteligenca skoraj praviloma predstavlja grožnjo človeštvu. Kot je nekoč zapisal Arthur C. Clarke, “vsaka dovolj napredna tehnologija je neločljiva od magije”. Magija pa praviloma pomeni nekaj slabega, kajne?

V resnici pa na tehnologije umetne inteligence lahko gledamo kot na orodje. Orodje, ki je lahko uporabljeno za nekaj dobrega, ali orodje, ki je lahko uporabljeno za nekaj slabega. V tokratnem prispevku si bomo pogledali, kako je tehnologije umetne inteligence mogoče uporabiti za ohranjanje in digitalizacijo slovenskega jezika.

Jezikovni viri in tehnologije za slovenski jezik

Za razvoj in preživetje jezika je v današnjem času zelo pomemben razvoj jezikovnih tehnologij.

Skupina slovenskih raziskovalcev je zato leta 2019 pričela delati na projektu Razvoj slovenščine v digitalnem okolju, v okviru katerega razvijajo metode za analizo jezika, metode večjezičnosti ter metode za izboljšanje bralne pismenosti v digitalnem okolju.

Vse razvite tehnologije so na voljo pod odprtimi licencami, raziskovalci pod vodstvom Simona Kreka, med katerimi so tudi moji sodelavci, pa so jih postavili na demonstracijskem portalu slovenščina.eu. Na hitro si poglejmo, kaj so pripravili.

Prepoznavanje govora

Na demonstracijskem portalu je sicer na voljo več modulov, osebno sem se odločil preskusiti Razpoznavalnik, ki omogoča avtomatsko transkripcijo govora.

Demonstracijska spletna stran ima omejitev, in sicer omogoča samo transkripcijo 300 sekund (5 minut) govora, a za testiranje je to povsem dovolj. Kdor želi več, si lahko vso potrebno kodo brezplačno prenese in namesti iz Githuba.

Za test sem pognal avtomatsko transkripcijo mojega predavanja iz leta 2017 z naslovom Phonebusters - kako varni so v resnici mobilni telefoni (objavljeno je na portalu Videolectures.net.

Iz videoposnetka je bilo najprej treba izločiti zvok ter nato odrezati prvih 5 minut govora, kar lahko preprosto storimo z orodjem ffmpeg:

ffmpeg -i predavanje.mp4 -ac 2 -f wav predavanje.wav

ffmpeg -ss 1 -t 300 -i predavanje.wav predavanje300.wav

Datoteko predavanje300.wav nato naložimo na Razpoznavalnik, in čarovnija se lahko začne.

Razpoznavalnik na slovenscina.eu

Razpoznavalnik na slovenscina.eu.

Rezultat sploh ni slab, a poglejmo, če se ga da še izboljšati.

Za hitro rešitev za izboljšanje bomo zaprosili kar umetno inteligenco, tokrat ChatGPT.

ChatGPT smo zaprosili za pomoč pri povečanju razumljivosti besedila

ChatGPT smo zaprosili za pomoč pri povečanju razumljivosti besedila.

Pri tem je potrebno povedati, da kot nadomestek ChatGPT že obstajajo kvalitetne odprtokodne alternative, ki jih lahko poganjamo na lastni infrastrukturi. Vendar pa jih je potrebno namestiti, zato bo za hiter test ChatGPT povsem zadostoval.

Poravnan in izboljšan tekst

Poravnan in izboljšan tekst.

Kot vidimo, je besedilo tokrat še bistveno bolj berljivo in pravzaprav potrebno res minimalnih popravkov.

Za konec pa lahko storimo še nekaj drugega. Besedilo, ki ga je izboljšal ChatGPT prekopiramo v Wikifier, ki je še eno izmed orodij umetne inteligence, ki ga razvijajo moji sodelavci iz Laboratorija za umetno inteligenco.

Wikifier besedilo analizira in iz njega izlušči ključne besede (in to v več jezikih), na podlagi česar lahko potem besedilo samodejno klasificiramo oz. ugotovimo tematiko predavanja.

Klasifikacija besedila z Wikifierjem

Klasifikacija besedila z Wikifierjem.

Na koncu besedilo prekopiramo še v prevajalnik na slovenscina.eu in ga prevedemo v angleščino.

Samodejni prevod besedila v angleščino

Samodejni prevod besedila v angleščino.

Za prevod v šoli morda res ne bi dobili čiste petice, vendar pa je za tiste, ki slovenskega jezika ne razumejo povsem zadovoljiv, da se seznanijo z vsebino predavanja.

Vse to z zgolj nekaj kliki in z brezplačnimi orodji!

In prihodnost?

V bližnji prihodnosti si ni težko zamisliti sistema, ki bi imel ta orodja že povsem integrirana in bi vsak videoposnetek samodejno podnaslovil, hkrati pa ponudil še možnost prikaza podnapisov v angleškem jeziku. In to na vašem telefonu.

Namesto ChatGPT bi lahko že danes uporabili Vicuna, ki dosega 90% kvalitete GPT-4 in je odprtokoden, za ostale jezike pa si lahko ogledamo Massively Multilingual Speech (MMS) projekt, ki že sedaj podpira transkribiranje več kot 1100 jezikov. In da, Wikifier trenutno podpira že 138 jezikov.

S takšnimi projekti je prihodnost slovenskega jezika svetla. Hkrati pa vsi ti projekti kažejo, da so orodja umetne inteligence lahko v praksi zelo uporabna tudi za običajne smrtnike.

Je sistem mogoče zlorabiti oziroma ali prinaša kakšne nevarnosti? Gotovo da. Enako kot tudi avtomobili in avtobusi prinašajo številne nevarnosti. A prednosti odtehtajo in zato se danes ne pogovarjamo o prepovedi avtomobilov in avtobusov, čeprav se zavedamo nevarnosti prometnih nesreč.

Podobno velja tudi za umetno inteligenco. Gotovo je potrebna regulacija (za kar bo med drugim poskrbel tudi Artificial Intelligence Act, ki ga pripravlja EU). A tehnologije umetne inteligence prinašajo številne koristi, in prav je, da spodbujamo uporabo tehnologije za dobre namene, omejujemo pa njene zlorabe.

❌