AD homeoffice PET

Umelá inteligencia: možnosti a spôsoby využitia

Zobraziť katalóg
Aktualizované • Autor: Juraj Bednár

Umelá inteligencia má širokú škálu využitia. Od rozpoznávania rukopisu, manipulácie s obrázkami a textami cez samoriadiace autá, rozhodovanie o bankových pôžičkách až po navigáciu vo vesmíre. Pozrieme sa na niektoré využitia, aj keď by ste ťažko hľadali oblasť informatiky, ktorej sa umelá inteligencia aspoň trochu nedotkla.

Umelá inteligencia a história

Umelá inteligencia: možnosti a spôsoby využitia – OBSAH

  1. Rozpoznávanie hlasu
  2. Generovanie obrázkov
  3. Jazykové modely
  4. Samoriadiace autá
  5. Záver „punchline“

Rozpoznávanie hlasu

Automatické generovanie titulkov na YouTube, či asistenti na mobilných telefónoch (Google Assistant, Apple Siri) sú príkladmi, kedy dochádza k rozpoznávaniu hlasu. Ešte dávnejšie bolo použitie tejto technológie v špionážnych systémoch, kedy nebolo možné počúvať množstvá hodín odchytených telefonátov a bolo potrebné vyhľadávať pomocou kľúčových slov. Dnešné open-source modely ako napríklad Whisper od OpenAI (ktorý je na rozdiel od ChatGPT naozaj „otvorený“ – môžete ho spustiť lokálne) umožňujú rozoznávať reč v mnohých jazykoch a je možné ich používať na sumarizáciu stretnutí, komunikáciu s asistentami, titulkovanie videí, či preklad hovoreného slova do angličtiny.

Ak ho chcete spustiť, môžete použiť oficiálnu implementáciu alebo ešte lepšie na CPU optimalizovanú verziu whisper.cpp

Rozpoznávanie hlasu pomocou whisper.cpp

V článku som začal s rozpoznávaním hlasu hlavne preto, že je na ňom ľahko vidieť, ako môžeme prepojiť rôzne modely umelej inteligencie. Ak chceme vytvoriť hlasového asistenta, musíme rozpoznať, čo používateľ hovorí, potom to môžeme prepojiť s jazykovým modelom a odpoveďou môže byť opäť hlas, alebo dokonca vygenerovaný program, ktorý niečo urobí (napríklad rozsvieti svetlá). Veľkou výhodou open-source modelov je práve možnosť ich prepojenia a vytvorenia jedinečných aplikácií.

Generovanie obrázkov

Pri generovaní obrázkov z textu máme široké pole možností. Azda najpopulárnejšou je platená online služba MidJourney. Tá má trochu divné ovládanie pomocou chatovacej aplikácie Discord:

Text to image pomocou Midjourney

Máme si však možnosť nainštalovať aj lokálny model Stable Diffusion, ktorý beží na našom vlastnom zariadení. Najlepšie sa mu bude dariť na najnovších Macoch s Apple Silicon procesorom, ale rozbeháte ho aj na iných zariadeniach. Osobne používam InvokeAI, aj keď možností je viacero.

Invoke.ai využíva Stable Diffusion.

Okrem jednoduchého generovania obrázkov umožňuje aj rozširovanie obrázku (outpainting), dokresľovanie do existujúceho obrázku, zväčšovanie rozlíšenia, opravu tvárí a množstvo ďalších funkcií.

Inpainting alebo domýšľanie existujúceho obrázku.

Generatívne obrázkové modely však už nie sú iba doménou samostatných nástrojov – sú doslova všade. Ak používate webový editor obrázkov Canva, či Adobe Photoshop, máte možnosť vytvárať obrázky alebo dokonca používať obrázky pri úprave fotografií.

Umělá inteligence
Generovanie obrázkov v Adobe Photoshope

Trénovanie obrázkových modelov

Výhodou otvorených obrázkových modelov ako Stable diffusion je možnosť dotrénovania pre vaše potreby. Či už ide o „firemný štýl“ (napríklad použitie firemných farieb), konkrétne použitie (portréty, manga, prípadne váš vlastný umelecký štýl) alebo zlepšenie generovania konkrétnych objektov, drobných dotrénovaním základného modelu môžete dokázať divy.

Služba CivitAI umožňuje dotrénované modely zdieľať a tak ak máte nejakú konkrétnu potrebu, môžete si stiahnuť upravené váhy.

Umělá inteligence
Služba CivitAi obsahuje veľké množstvo vyladených dotrénovaných modelov použiteľných na rôzne špecifické úlohy.

Trénovanie modelov môže byť však aj za iným účelom – môžete si vytvoriť model, ktorý dokáže renderovať napríklad priamo vás, vašu rodinu, či kolegov. Potrebujete fotku vo Versaillskom paláci alebo na medzinárodnej vesmírnej stanici? Nie je problém. Alebo možno chcete len vyzerať trochu krajšie ako v realite...

Umělá inteligence
Obrázok: AI generovaný obrázok podobný mne.

Jazykové modely

Jadrom súčasnej revolúcie umelej inteligencie sú však jazykové modely. Azda každý počul o ChatGPT, čo je nástroj, s ktorým sa môžete rozprávať. Novšie verzie (GPT-4) majú plug-iny a jednoduchý prístup na web, na ktorom môžu vyhľadávať aktuálne informácie, ktoré nie sú v trénovacej množine.

Ak sa pozrieme na väčšinu „startupov z umelej inteligencie“, tak je to veľmi často iba zabalené volanie ChatGPT. Podobne funguje napríklad umelá inteligencia Microsoftu (Bing), integrácie do nástrojov ako napríklad Notion a podobne. Ako hovorí známe meme zo seriálu Scooby doo:

Umělá inteligence
Obrázok: Služba CivitAi obsahuje veľké množstvo vyladených dotrénovaných modelov použiteľných na rôzne špecifické úlohy.

Z môjho pohľadu sú ale zaujímavejšie open-source jazykové modely, ktoré môžeme bežať na vlastnom hardvéri, trénovať a vylepšovať ich. A s nimi sa tiež roztrhlo vrece.

Umělá inteligence
Obrázok: Vývoj základných jazykových modelov podľa LLM Practical Guide.

Spôsoby, ako ich môžete prevádzkovať závisia prevažne od vášho hardvéru a operačného systému. Jazykový model je zložený z váh, popisu architektúry (ako sú prepojené neuróny) a kódu, ktorý umožňuje inferenciu.

Výber kódu závisí od toho, čo chcete robiť a či máte grafickú kartu. Väčšina modelov je najprv vyvíjaná pre grafické karty firmy NVIDIA, pomocou frameworku CUDA a najčastejšie pomocou nástroja PyTorch. Väčšina programátorov však použije knižnicu vyššej úrovne, napríklad transformers od Hugging Face, kde stačí na pár riadkov odkázať na model z databázy Hugging Face a pustiť inferenciu – o stiahnutie váh, vytvoreniu architektúry pomocou volaní PyTorch knižnice sa postará práve transformers knižnica.

Ak by ste chceli hlbšie rozumieť tomu ako modely fungujú, odporúčam sa pozrieť na knižnicu tinygrad, ktorej cieľom je, aby bola čo najjednoduchšia a najkratšia. Jej autorom je George Hotz (geohot). O ňom si niečo povieme aj pri samoriadiacich autách.

Ak máte zariadenia s Apple M1 čipmi, bude vás asi zaujímať balík llama.cpp.

Ak ste skôr používatelia ako programátori, existuje množstvo nástrojov, ktoré robia front-end (a prípadné API). Jedným z najznámejších je program gpt4all:

Príklad použitia gpt4all s 13B kvantizovaným modelom založenom na llama na MacBook Pro M2 – v natívnej rýchlosti.

Nástroj gpt4all dokonca implementuje rovnaké API ako ChatGPT/OpenAI, takže môžete používať akýkoľvek softvér, ktorý používa OpenAI API, ale s lokálnym modelom.

Ako si vybrať správny model? Predpokladám, že keď budete čítať tieto riadky, je akákoľvek odpoveď zastaralá a preto vás odkážem na „hitparádu modelov“ od Hugging Face. Jedna veľmi zaujímavá vetva je od modelu Llama, ktorý vytvorila spoločnosť Meta. Nevýhodou je licencovanie, ktoré je nejasné, ale určite je len na nekomerčné účely. Prečo „vetva“? Základný jazykový model len vezme text a snaží sa vygenerovať jeho pokračovanie. Je to teda čisto jazykový model, ktorý nie je vyladený na nasledovanie inštrukcií alebo konverzáciu. Vyladenia model dosť ovplyvňujú. Dlhú dobu som používal napríklad model vicuna-13B-uncensored, ktorý je natrénovaný na konverzáciu, ale snaží sa dávať odpovede namiesto moralizujúcich prednášok, aké poznáte z ChatGPT. Ak sa ho opýtate na Bitcoin, odpovie vám, namiesto varovania, aké sú kryptomeny hrozne volatilné a nebezpečné.

Medzičasom vznikol napríklad model falcon, ktorý je použiteľný aj na komerčné účely a rôzne tímy pracujú na jeho dotrénovaní na rôzne úlohy. StabilityAI pracuje na rade modelov StableLM. Vývoj je naozaj rýchly

Samoriadiace autá

O samojazdiacich autách sa diskutuje už roky. Zatiaľ nemáme komerčne dostupné auto, ktoré by dokázalo šoférovať úplne samé na akejkoľvek ceste. Je to však veľmi dôležitá oblasť umelej inteligencie. Ľudskí šoféri robia chyby, majú pomalé reakčné časy, strácajú pozornosť a podobne. Prechodom na samoriadiace autá by sme mohli zachrániť veľké množstvo životov.

Umělá inteligence
Midjourney sníva o tom ako by mohlo vyzerať auto, ktoré nie je potrebné šoférovať.

Moderné autá majú v sebe množstvo elektroniky. Aj bežnejšie autá pomáhajú s parkovaním pomocou senzorov a kamier, majú adaptívny tempomat (spomalia ak zistia, že pred autom sú iní účastníci cestnej premávky, ktorí idú pomalšie). Niektoré autá majú dokonca funkciu lane-assist, ktorá jemne točí volantom, aby udržala (prevažne na diaľnici) auto v jazdnom pruhu.

Samoriadenie má niekoľko úrovní. Spomínané nástroje sú prvá úroveň – auto pomáha s nejakými funkciami ľudskému vodičovi. Druhá úroveň je čiastočná automatizácia, kedy auto prepája automatizáciu riadenia (volantom) a ovládania rýchlosti. Takéto auto už v istých situáciách šoféruje prakticky samé, ale vodič musí byť pozorný a mal by byť schopný v každom momente prebrať riadenie. Taktiež riadi niektoré aspekty riadenia (rozhoduje o tom kedy prejsť do druhého pruhu a pod.). Tretia úroveň je podmienená automatizácia – vodič musí byť stále schopný prebrať riadenie, ale auto sa prakticky šoféruje samé. Štvrtou úrovňou už za istých okolností auto dokáže šoférovať samé – príkladom sú taxíky Waymo v meste Phoenix, Arizona. Piata úroveň je plné samoriadenie, tú zatiaľ žiadny projekt nedosiahol.

Najďalej v komerčnej aplikácii a popularizácii samoriadenia je pravdepodobne Tesla. Tím na vývoj umelej inteligencie na samoriadenie áut postavil v Tesle Andrej Karpathy, od ktorého sa zároveň môžete naučiť o tom ako funguje umelá inteligencia, jazykové modely a všeličo iné.

Tesla drží auto v jazdnom pruhu, deteguje prekážky, a vo vyššej verzii (za príplatok) sa dokáže preraďovať medzi jazdnými pruhmi.

Tesla však nie je jediná možnosť ako získať samoriadiace auto. Pozrime sa na to, ako je ďaleko open-source konkurencia. Áno, aj taká existuje – projekt comma.ai a ich openpilot umožňujú dorobiť do väčšiny áut, ktoré majú lane assist a adaptívny tempomat samoriadiace schopnosti druhej úrovne – veľmi podobné ako Basic Autopilot. V závislosti od auta vás comma dokáže udržať v jazdnom pruhu, brzdiť pri prekážkach a preraďovať sa medzi jazdnými pruhmi. Mottom tohto projektu je „make driving chill“ („aby riadenie bolo pohodové“).

Umělá inteligence
Autopilot comma three od comma.ai šoféruje sám aj v daždi. Obrázok Nelson Chen (Crazysim) cez Wikimedia Commons

Autorom tohto projektu je George Hotz, známy aj ako geohot. Známym sa stal tak, že hackoval Apple zariadenia (prevažne iPhony). V auguste 2007 sa mu ako prvému podarilo odstrániť blokovanie iPhone na operátora. Mal vtedy sedemnásť rokov. V októbri 2009 vydal nástroj s názvom „blackra1n“, ktorý bol kompatibilný so všetkými zariadeniami iPhone a iPod Touch so systémom iOS 3.1.2 a ktorý umožňoval tzv. „jailbreak“. Momentálne (podobne ako pri Andrejovi Karpathym) nájdete na internete množstvo videí, kde vysvetľuje techniky umelej inteligencie veľmi prakticky (na rozdiel od Andreja Karpathyho pri tom väčšinou je jedlo a namiesto slajdov a pripravenej prezentácie to robí prvýkrát, čo je zaujímavý pohľad na to, ako rozmýšľa veľmi šikovný programátor a ako rieši problémy).

Ak ste boli prekvapení, že veľké jazykové alebo obrázkové modely majú pomerne kvalitné open-source alternatívy, tak v prípade samoriadenia je prekvapený takmer každý – väčšina ľudí si myslí, že je to úloha tak náročná, že ju zvládajú len obrovské tímy s obrovskou výpočtovou silou. Na plné samoriadenie piatej úrovne si počkáme aj kvôli regulátorom. O vývoji umelej inteligencie v budúcnosti a možných použitiach si povieme v nasledujúcom – poslednom – dieli seriálu.

Záver – „punchline“

Pôvodne som tento text chcel ukončiť tu, ale editor správne poznamenal, že by bolo dobré ukončiť to nejakou „punchline“, čo z toho teda vyplýva? V teplych letných dňoch mi dochádzala inšpirácia, tak som si pomohol modelom Hermes odvodenom od Vicuna.

Umělá inteligence
Pomocou umelej inteligencie k záveru článku…

Bohužiaľ, model funguje dobre najmä v angličtine, takže som záver musel preložiť do slovenčiny, ktorá je zdrojovým jazykom tohto článku, pomocou modelu DeepL.

Umělá inteligence
Samozrejme v správnom jazyku.

A prečo to tu takto podrobne rozpisujem? Pretože podľa mňa najzaujímavejšie, čo sa bude diať je prepájanie modelov. Jazykové modely, obrázkové modely a podobne sú šikovné, ale ich prepojenie bude dávať ešte lepšie výsledky. Jazykový model nevie počítať rovnice, ale Wolfram Alpha to vie. Vizuálny model riadenia auta vie auto udržať v jazdnom pruhu, ale navigačný softvér vie, v ktorom pruhu mám byť podľa toho, kam chcem ísť. Rozpoznávanie hlasu vie, čo hovoríme, ale až jazykový model vie, čo tým chceme povedať.

Aký je teda punchline?

Ako pokračuje rozvoj týchto modelov umelej inteligencie, začíname ich stále viac prepájať. Predstavte si budúcnosť, v ktorej samojazdiace autá navzájom komunikujú, aby sa vyhli nehodám, systémy na rozpoznávanie reči bezproblémovo prekladajú jazyky v reálnom čase (babelfish) a algoritmy na rozpoznávanie obrazu spolupracujú na identifikácii objektov s bezkonkurenčnou presnosťou. Jazykové modely pomáhajú autorom článkov na Alza napísať záver, programátorom efektívnejšie písať kód, právnikom napísať zmluvy. Sila modelov je však v ich prepojení medzi sebou a s inými aplikáciami. Toto prepojenie modelov umelej inteligencie nielenže prináša revolúciu v spôsobe nášho života a práce, ale zároveň pripravuje pôdu pre novú éru spolupráce medzi človekom a strojom.

Umělá inteligence
Prepojenie modelov medzi sebou, aj prepojenie ľudí a umelej inteligencie („a humanoid robot and a human holding hands in a futuristic car's back seat that looks like a luxurious couch. the car has no driver, only intelligent computer that is driving. 8-bit amiga retro style pixelated graphics“).

Vzájomné prepojenie modelov a tiež prepojenie ľudí a umelej inteligencie. Budúcnosť je v prispôsobovaní všeobecných modelov na špecifickejšie úlohy, prepájanie modelov medzi sebou. Tým vytvárajme svet, v ktorom technológie zlepšujú náš život spôsobom, o ktorom sme si nikdy nemysleli, že je možný. A práve o tom bude aj ďalší diel seriálu.

Juraj Bednar

Juraj Bednár

Som cypherpunker, mám rád slobodu, súkromie, peer to peer technológie a terminálové okná. Skúmam chaotický svet, volatilitu a neistotu, bojujem proti entropii - zakladám firmy, neziskové projekty, robím kurzy a píšem knihy. Som spoluzakladateľ Paralelnej Polis, hackerspace Progressbar, či bug bounty platformy Hacktrophy. Vyštudoval som odbor umelá inteligencia a umelá inteligencia sa vrátila - tak ako som ju nikdy nepoznal. O všetkých týchto skúsenostiach píšem blog.

4,6 247×
Google Nest Mini 2. generácie Charcoal
Hlasový asistent Google Assistant – v angličtine, nemčine, podpora Android a iOS, pripojenie cez WiFi 2,4 GHz, WiFi 5 GHz a bluetooth, otvorený systém, ovládanie domácnosti, 3 mikrofóny na snímanie okolitého zvuku, podporuje Spotify, YouTube Music a Pandora
+Darček Držiak na reproduktory AlzaErgo v hodnote 5,80 €
44,90 €
Na sklade > 5 ks
Do polnoci objednáš, ráno v AlzaBoxe máš!
Info
Objednávací kód: GOOGH51
BIG DATA a umělá inteligence pro manažery
Elektronická kniha - autor Ing. Barbora Štětinová MBA, 168 stran, česky
15,70 €
Ihneď k čítaniu
Objednávací kód: EK40191
Supervelmoci umělé inteligence
Elektronická kniha - autor Kai-Fu Lee, 292 stran, česky
13,26 €
Ihneď k čítaniu
Objednávací kód: EK33556
4,7 17×
Google Nest Audio Chalk
Hlasový asistent Google Assistant – v angličtine, podpora Android a iOS, pripojenie cez WiFi 2,4 GHz a bluetooth, otvorený systém, ovládanie domácnosti, 3 mikrofóny na snímanie okolitého zvuku, podporuje Spotify, basový a výškový reproduktor
109,90 €
Na sklade > 5 ks
Do polnoci objednáš, ráno v AlzaBoxe máš!
Info
Objednávací kód: GOOGnestA1
4,8 667×
Apple HomePod mini vesmírne sivý
Hlasový asistent Apple HomeKit – podpora iOS, pripojenie cez WiFi 2,4 GHz a bluetooth, otvorený systém, fungovanie samostatne, ovládanie domácnosti, podporuje Apple Music
113,90 €
Na sklade > 5 ks
Do polnoci objednáš, ráno v AlzaBoxe máš!
Info
Objednávací kód: JA041
4,8 667×
Apple HomePod mini biely
Hlasový asistent Apple HomeKit – v angličtine, češtine, podpora iOS, pripojenie cez WiFi 2,4 GHz a bluetooth, otvorený systém, fungovanie samostatne, ovládanie domácnosti, kamera, 2 mikrofóny na snímanie okolitého zvuku, podporuje Apple Music, basový reproduktor
113,90 €
Na sklade > 5 ks
Objednávací kód: JA041a1
5,0
Apple HomePod (2nd generation) White
Hlasový asistent Apple HomeKit – v angličtine, kompatibilný s aplikáciami výrobcu, podpora iOS, pripojenie cez WiFi 2,4 GHz a bluetooth, otvorený systém, fungovanie samostatne, ovládanie domácnosti, vzdialený prístup, 4 mikrofóny na snímanie okolitého zvuku, podporuje Apple Music, YouTube Music a Pandora, výškový reproduktor
368,90 €
Na sklade > 5 ks
Do polnoci objednáš, ráno v AlzaBoxe máš!
Info
Objednávací kód: apple23_01
4,8 667×
Apple HomePod mini modrý – EU
Hlasový asistent Apple HomeKit – podpora iOS, pripojenie cez WiFi 2,4 GHz a bluetooth, otvorený systém, fungovanie samostatne, ovládanie domácnosti, podporuje Apple Music
113,90 €
Na sklade > 5 ks
Objednávací kód: JA042
4,8 667×
Apple HomePod mini žltý – EÚ
Hlasový asistent Apple HomeKit – podpora iOS, pripojenie cez WiFi 2,4 GHz a bluetooth, otvorený systém, fungovanie samostatne, ovládanie domácnosti, podporuje Apple Music
113,90 €
Na sklade > 5 ks
Objednávací kód: JA043
4,5 102×
Nest Hub (2nd gen) Chalk
Hlasový asistent Google Assistant – v angličtine, podpora Android a iOS, pripojenie cez WiFi 2,4 GHz a bluetooth, otvorený systém, ovládanie osvetlenia, domácnosti, sledovania počasia, displej, 3 mikrofóny na snímanie okolitého zvuku, podporuje NETFLIX, YouTube, Spotify, Apple Music a YouTube Music, uhlopriečka displeja 7", dotykové ovládanie
89,90 €
Na sklade > 5 ks
Do polnoci objednáš, ráno v AlzaBoxe máš!
Info
Objednávací kód: GOOGH45
4,6 247×
Google Nest Mini 2. generácie Chalk
Hlasový asistent Google Assistant – v angličtine, nemčine, podpora Android a iOS, pripojenie cez WiFi 2,4 GHz, WiFi 5 GHz a bluetooth, otvorený systém, ovládanie domácnosti, 3 mikrofóny na snímanie okolitého zvuku, podporuje Spotify, YouTube Music a Pandora
47,90 €
Na objednávku – termín upresníme
Objednávací kód: GOOGH52
4,8 667×
Apple HomePod mini oranžový – EÚ
Hlasový asistent Apple HomeKit – podpora iOS, pripojenie cez WiFi 2,4 GHz a bluetooth, otvorený systém, fungovanie samostatne, ovládanie domácnosti, podporuje Apple Music
113,90 €
Na objednávku – termín upresníme
Objednávací kód: JA044
4,9 18×
Amazon Echo Dot (5th Gen) with clock Glacier White
Hlasový asistent Amazon Alexa – v angličtine, v španielčine, podpora Android a iOS, pripojenie cez WiFi 2,4 GHz, WiFi 5 GHz a bluetooth, otvorený systém, fungovanie samostatne, ovládanie domácnosti, tvorba scenárov a vzdialený prístup, displej, hodiny a tlačidlo na odpojenie mikrofónu, 1 mikrofón na snímanie okolitého zvuku, podporuje Spotify, Apple Music a Amazon Music
69,90 €
Na sklade > 5 ks
Do polnoci objednáš, ráno v AlzaBoxe máš!
Info
Objednávací kód: AMAECHDO5THWC
Vytlačiť
P-DC1-WEB06
Zavoláme Vám a odborne poradime
+421 2 5710 1800
Otázka na objednávku
Otázka na tovar
Prosím, zadajte svoj telefón:
Zavolajte mi
Na vašom súkromí nám záleží My, spoločnosť Alza.cz a.s., IČO 27082440, používame súbory cookies na zaistenie funkčnosti webu a s vaším súhlasom o. i. aj na personalizáciu obsahu našich webových stránok. Kliknutím na tlačidlo „Rozumiem“ súhlasíte s využívaním cookies a predaním údajov o správaní na webe na zobrazenie cielenej reklamy na sociálnych sieťach a reklamných sieťach na ďalších weboch.
Viac informácií Menej informácií