AD elektro AD elektro

Umelá inteligencia: možnosti a spôsoby využitia

Catalogue
Aktualizované • Autor: Juraj Bednár

Umelá inteligencia má širokú škálu využitia. Od rozpoznávania rukopisu, manipulácie s obrázkami a textami cez samoriadiace autá, rozhodovanie o bankových pôžičkách až po navigáciu vo vesmíre. Pozrieme sa na niektoré využitia, aj keď by ste ťažko hľadali oblasť informatiky, ktorej sa umelá inteligencia aspoň trochu nedotkla.

Umelá inteligencia a história

Umelá inteligencia: možnosti a spôsoby využitia – OBSAH

  1. Rozpoznávanie hlasu
  2. Generovanie obrázkov
  3. Jazykové modely
  4. Samoriadiace autá
  5. Záver „punchline“

Rozpoznávanie hlasu

Automatické generovanie titulkov na YouTube, či asistenti na mobilných telefónoch (Google Assistant, Apple Siri) sú príkladmi, kedy dochádza k rozpoznávaniu hlasu. Ešte dávnejšie bolo použitie tejto technológie v špionážnych systémoch, kedy nebolo možné počúvať množstvá hodín odchytených telefonátov a bolo potrebné vyhľadávať pomocou kľúčových slov. Dnešné open-source modely ako napríklad Whisper od OpenAI (ktorý je na rozdiel od ChatGPT naozaj „otvorený“ – môžete ho spustiť lokálne) umožňujú rozoznávať reč v mnohých jazykoch a je možné ich používať na sumarizáciu stretnutí, komunikáciu s asistentami, titulkovanie videí, či preklad hovoreného slova do angličtiny.

Ak ho chcete spustiť, môžete použiť oficiálnu implementáciu alebo ešte lepšie na CPU optimalizovanú verziu whisper.cpp

Rozpoznávanie hlasu pomocou whisper.cpp

V článku som začal s rozpoznávaním hlasu hlavne preto, že je na ňom ľahko vidieť, ako môžeme prepojiť rôzne modely umelej inteligencie. Ak chceme vytvoriť hlasového asistenta, musíme rozpoznať, čo používateľ hovorí, potom to môžeme prepojiť s jazykovým modelom a odpoveďou môže byť opäť hlas, alebo dokonca vygenerovaný program, ktorý niečo urobí (napríklad rozsvieti svetlá). Veľkou výhodou open-source modelov je práve možnosť ich prepojenia a vytvorenia jedinečných aplikácií.

Generovanie obrázkov

Pri generovaní obrázkov z textu máme široké pole možností. Azda najpopulárnejšou je platená online služba MidJourney. Tá má trochu divné ovládanie pomocou chatovacej aplikácie Discord:

Text to image pomocou Midjourney

Máme si však možnosť nainštalovať aj lokálny model Stable Diffusion, ktorý beží na našom vlastnom zariadení. Najlepšie sa mu bude dariť na najnovších Macoch s Apple Silicon procesorom, ale rozbeháte ho aj na iných zariadeniach. Osobne používam InvokeAI, aj keď možností je viacero.

Invoke.ai využíva Stable Diffusion.

Okrem jednoduchého generovania obrázkov umožňuje aj rozširovanie obrázku (outpainting), dokresľovanie do existujúceho obrázku, zväčšovanie rozlíšenia, opravu tvárí a množstvo ďalších funkcií.

Inpainting alebo domýšľanie existujúceho obrázku.

Generatívne obrázkové modely však už nie sú iba doménou samostatných nástrojov – sú doslova všade. Ak používate webový editor obrázkov Canva, či Adobe Photoshop, máte možnosť vytvárať obrázky alebo dokonca používať obrázky pri úprave fotografií.

Umělá inteligence
Generovanie obrázkov v Adobe Photoshope

Trénovanie obrázkových modelov

Výhodou otvorených obrázkových modelov ako Stable diffusion je možnosť dotrénovania pre vaše potreby. Či už ide o „firemný štýl“ (napríklad použitie firemných farieb), konkrétne použitie (portréty, manga, prípadne váš vlastný umelecký štýl) alebo zlepšenie generovania konkrétnych objektov, drobných dotrénovaním základného modelu môžete dokázať divy.

Služba CivitAI umožňuje dotrénované modely zdieľať a tak ak máte nejakú konkrétnu potrebu, môžete si stiahnuť upravené váhy.

Umělá inteligence
Služba CivitAi obsahuje veľké množstvo vyladených dotrénovaných modelov použiteľných na rôzne špecifické úlohy.

Trénovanie modelov môže byť však aj za iným účelom – môžete si vytvoriť model, ktorý dokáže renderovať napríklad priamo vás, vašu rodinu, či kolegov. Potrebujete fotku vo Versaillskom paláci alebo na medzinárodnej vesmírnej stanici? Nie je problém. Alebo možno chcete len vyzerať trochu krajšie ako v realite...

Umělá inteligence
Obrázok: AI generovaný obrázok podobný mne.

Jazykové modely

Jadrom súčasnej revolúcie umelej inteligencie sú však jazykové modely. Azda každý počul o ChatGPT, čo je nástroj, s ktorým sa môžete rozprávať. Novšie verzie (GPT-4) majú plug-iny a jednoduchý prístup na web, na ktorom môžu vyhľadávať aktuálne informácie, ktoré nie sú v trénovacej množine.

Ak sa pozrieme na väčšinu „startupov z umelej inteligencie“, tak je to veľmi často iba zabalené volanie ChatGPT. Podobne funguje napríklad umelá inteligencia Microsoftu (Bing), integrácie do nástrojov ako napríklad Notion a podobne. Ako hovorí známe meme zo seriálu Scooby doo:

Umělá inteligence
Obrázok: Služba CivitAi obsahuje veľké množstvo vyladených dotrénovaných modelov použiteľných na rôzne špecifické úlohy.

Z môjho pohľadu sú ale zaujímavejšie open-source jazykové modely, ktoré môžeme bežať na vlastnom hardvéri, trénovať a vylepšovať ich. A s nimi sa tiež roztrhlo vrece.

Umělá inteligence
Obrázok: Vývoj základných jazykových modelov podľa LLM Practical Guide.

Spôsoby, ako ich môžete prevádzkovať závisia prevažne od vášho hardvéru a operačného systému. Jazykový model je zložený z váh, popisu architektúry (ako sú prepojené neuróny) a kódu, ktorý umožňuje inferenciu.

Výber kódu závisí od toho, čo chcete robiť a či máte grafickú kartu. Väčšina modelov je najprv vyvíjaná pre grafické karty firmy NVIDIA, pomocou frameworku CUDA a najčastejšie pomocou nástroja PyTorch. Väčšina programátorov však použije knižnicu vyššej úrovne, napríklad transformers od Hugging Face, kde stačí na pár riadkov odkázať na model z databázy Hugging Face a pustiť inferenciu – o stiahnutie váh, vytvoreniu architektúry pomocou volaní PyTorch knižnice sa postará práve transformers knižnica.

Ak by ste chceli hlbšie rozumieť tomu ako modely fungujú, odporúčam sa pozrieť na knižnicu tinygrad, ktorej cieľom je, aby bola čo najjednoduchšia a najkratšia. Jej autorom je George Hotz (geohot). O ňom si niečo povieme aj pri samoriadiacich autách.

Ak máte zariadenia s Apple M1 čipmi, bude vás asi zaujímať balík llama.cpp.

Ak ste skôr používatelia ako programátori, existuje množstvo nástrojov, ktoré robia front-end (a prípadné API). Jedným z najznámejších je program gpt4all:

Príklad použitia gpt4all s 13B kvantizovaným modelom založenom na llama na MacBook Pro M2 – v natívnej rýchlosti.

Nástroj gpt4all dokonca implementuje rovnaké API ako ChatGPT/OpenAI, takže môžete používať akýkoľvek softvér, ktorý používa OpenAI API, ale s lokálnym modelom.

Ako si vybrať správny model? Predpokladám, že keď budete čítať tieto riadky, je akákoľvek odpoveď zastaralá a preto vás odkážem na „hitparádu modelov“ od Hugging Face. Jedna veľmi zaujímavá vetva je od modelu Llama, ktorý vytvorila spoločnosť Meta. Nevýhodou je licencovanie, ktoré je nejasné, ale určite je len na nekomerčné účely. Prečo „vetva“? Základný jazykový model len vezme text a snaží sa vygenerovať jeho pokračovanie. Je to teda čisto jazykový model, ktorý nie je vyladený na nasledovanie inštrukcií alebo konverzáciu. Vyladenia model dosť ovplyvňujú. Dlhú dobu som používal napríklad model vicuna-13B-uncensored, ktorý je natrénovaný na konverzáciu, ale snaží sa dávať odpovede namiesto moralizujúcich prednášok, aké poznáte z ChatGPT. Ak sa ho opýtate na Bitcoin, odpovie vám, namiesto varovania, aké sú kryptomeny hrozne volatilné a nebezpečné.

Medzičasom vznikol napríklad model falcon, ktorý je použiteľný aj na komerčné účely a rôzne tímy pracujú na jeho dotrénovaní na rôzne úlohy. StabilityAI pracuje na rade modelov StableLM. Vývoj je naozaj rýchly

Samoriadiace autá

O samojazdiacich autách sa diskutuje už roky. Zatiaľ nemáme komerčne dostupné auto, ktoré by dokázalo šoférovať úplne samé na akejkoľvek ceste. Je to však veľmi dôležitá oblasť umelej inteligencie. Ľudskí šoféri robia chyby, majú pomalé reakčné časy, strácajú pozornosť a podobne. Prechodom na samoriadiace autá by sme mohli zachrániť veľké množstvo životov.

Umělá inteligence
Midjourney sníva o tom ako by mohlo vyzerať auto, ktoré nie je potrebné šoférovať.

Moderné autá majú v sebe množstvo elektroniky. Aj bežnejšie autá pomáhajú s parkovaním pomocou senzorov a kamier, majú adaptívny tempomat (spomalia ak zistia, že pred autom sú iní účastníci cestnej premávky, ktorí idú pomalšie). Niektoré autá majú dokonca funkciu lane-assist, ktorá jemne točí volantom, aby udržala (prevažne na diaľnici) auto v jazdnom pruhu.

Samoriadenie má niekoľko úrovní. Spomínané nástroje sú prvá úroveň – auto pomáha s nejakými funkciami ľudskému vodičovi. Druhá úroveň je čiastočná automatizácia, kedy auto prepája automatizáciu riadenia (volantom) a ovládania rýchlosti. Takéto auto už v istých situáciách šoféruje prakticky samé, ale vodič musí byť pozorný a mal by byť schopný v každom momente prebrať riadenie. Taktiež riadi niektoré aspekty riadenia (rozhoduje o tom kedy prejsť do druhého pruhu a pod.). Tretia úroveň je podmienená automatizácia – vodič musí byť stále schopný prebrať riadenie, ale auto sa prakticky šoféruje samé. Štvrtou úrovňou už za istých okolností auto dokáže šoférovať samé – príkladom sú taxíky Waymo v meste Phoenix, Arizona. Piata úroveň je plné samoriadenie, tú zatiaľ žiadny projekt nedosiahol.

Najďalej v komerčnej aplikácii a popularizácii samoriadenia je pravdepodobne Tesla. Tím na vývoj umelej inteligencie na samoriadenie áut postavil v Tesle Andrej Karpathy, od ktorého sa zároveň môžete naučiť o tom ako funguje umelá inteligencia, jazykové modely a všeličo iné.

Tesla drží auto v jazdnom pruhu, deteguje prekážky, a vo vyššej verzii (za príplatok) sa dokáže preraďovať medzi jazdnými pruhmi.

Tesla však nie je jediná možnosť ako získať samoriadiace auto. Pozrime sa na to, ako je ďaleko open-source konkurencia. Áno, aj taká existuje – projekt comma.ai a ich openpilot umožňujú dorobiť do väčšiny áut, ktoré majú lane assist a adaptívny tempomat samoriadiace schopnosti druhej úrovne – veľmi podobné ako Basic Autopilot. V závislosti od auta vás comma dokáže udržať v jazdnom pruhu, brzdiť pri prekážkach a preraďovať sa medzi jazdnými pruhmi. Mottom tohto projektu je „make driving chill“ („aby riadenie bolo pohodové“).

Umělá inteligence
Autopilot comma three od comma.ai šoféruje sám aj v daždi. Obrázok Nelson Chen (Crazysim) cez Wikimedia Commons

Autorom tohto projektu je George Hotz, známy aj ako geohot. Známym sa stal tak, že hackoval Apple zariadenia (prevažne iPhony). V auguste 2007 sa mu ako prvému podarilo odstrániť blokovanie iPhone na operátora. Mal vtedy sedemnásť rokov. V októbri 2009 vydal nástroj s názvom „blackra1n“, ktorý bol kompatibilný so všetkými zariadeniami iPhone a iPod Touch so systémom iOS 3.1.2 a ktorý umožňoval tzv. „jailbreak“. Momentálne (podobne ako pri Andrejovi Karpathym) nájdete na internete množstvo videí, kde vysvetľuje techniky umelej inteligencie veľmi prakticky (na rozdiel od Andreja Karpathyho pri tom väčšinou je jedlo a namiesto slajdov a pripravenej prezentácie to robí prvýkrát, čo je zaujímavý pohľad na to, ako rozmýšľa veľmi šikovný programátor a ako rieši problémy).

Ak ste boli prekvapení, že veľké jazykové alebo obrázkové modely majú pomerne kvalitné open-source alternatívy, tak v prípade samoriadenia je prekvapený takmer každý – väčšina ľudí si myslí, že je to úloha tak náročná, že ju zvládajú len obrovské tímy s obrovskou výpočtovou silou. Na plné samoriadenie piatej úrovne si počkáme aj kvôli regulátorom. O vývoji umelej inteligencie v budúcnosti a možných použitiach si povieme v nasledujúcom – poslednom – dieli seriálu.

Záver – „punchline“

Pôvodne som tento text chcel ukončiť tu, ale editor správne poznamenal, že by bolo dobré ukončiť to nejakou „punchline“, čo z toho teda vyplýva? V teplych letných dňoch mi dochádzala inšpirácia, tak som si pomohol modelom Hermes odvodenom od Vicuna.

Umělá inteligence
Pomocou umelej inteligencie k záveru článku…

Bohužiaľ, model funguje dobre najmä v angličtine, takže som záver musel preložiť do slovenčiny, ktorá je zdrojovým jazykom tohto článku, pomocou modelu DeepL.

Umělá inteligence
Samozrejme v správnom jazyku.

A prečo to tu takto podrobne rozpisujem? Pretože podľa mňa najzaujímavejšie, čo sa bude diať je prepájanie modelov. Jazykové modely, obrázkové modely a podobne sú šikovné, ale ich prepojenie bude dávať ešte lepšie výsledky. Jazykový model nevie počítať rovnice, ale Wolfram Alpha to vie. Vizuálny model riadenia auta vie auto udržať v jazdnom pruhu, ale navigačný softvér vie, v ktorom pruhu mám byť podľa toho, kam chcem ísť. Rozpoznávanie hlasu vie, čo hovoríme, ale až jazykový model vie, čo tým chceme povedať.

Aký je teda punchline?

Ako pokračuje rozvoj týchto modelov umelej inteligencie, začíname ich stále viac prepájať. Predstavte si budúcnosť, v ktorej samojazdiace autá navzájom komunikujú, aby sa vyhli nehodám, systémy na rozpoznávanie reči bezproblémovo prekladajú jazyky v reálnom čase (babelfish) a algoritmy na rozpoznávanie obrazu spolupracujú na identifikácii objektov s bezkonkurenčnou presnosťou. Jazykové modely pomáhajú autorom článkov na Alza napísať záver, programátorom efektívnejšie písať kód, právnikom napísať zmluvy. Sila modelov je však v ich prepojení medzi sebou a s inými aplikáciami. Toto prepojenie modelov umelej inteligencie nielenže prináša revolúciu v spôsobe nášho života a práce, ale zároveň pripravuje pôdu pre novú éru spolupráce medzi človekom a strojom.

Umělá inteligence
Prepojenie modelov medzi sebou, aj prepojenie ľudí a umelej inteligencie („a humanoid robot and a human holding hands in a futuristic car's back seat that looks like a luxurious couch. the car has no driver, only intelligent computer that is driving. 8-bit amiga retro style pixelated graphics“).

Vzájomné prepojenie modelov a tiež prepojenie ľudí a umelej inteligencie. Budúcnosť je v prispôsobovaní všeobecných modelov na špecifickejšie úlohy, prepájanie modelov medzi sebou. Tým vytvárajme svet, v ktorom technológie zlepšujú náš život spôsobom, o ktorom sme si nikdy nemysleli, že je možný. A práve o tom bude aj ďalší diel seriálu.

Juraj Bednar

Juraj Bednár

Som cypherpunker, mám rád slobodu, súkromie, peer to peer technológie a terminálové okná. Skúmam chaotický svet, volatilitu a neistotu, bojujem proti entropii - zakladám firmy, neziskové projekty, robím kurzy a píšem knihy. Som spoluzakladateľ Paralelnej Polis, hackerspace Progressbar, či bug bounty platformy Hacktrophy. Vyštudoval som odbor umelá inteligencia a umelá inteligencia sa vrátila - tak ako som ju nikdy nepoznal. O všetkých týchto skúsenostiach píšem blog.

4.6 249×
Google Nest Mini 2nd Generation - Charcoal
Voice Assistant - OS supported: Android and iOS controls your smart home and plays music, 3 ambient sound microphones, EU distribution, language used: English and German.
+Gift Speaker Mount AlzaErgo with a value of 5.80 €
44.90 €
Buy
In stock > 5 pcs
Order by midnight, get it at the AlzaBox in the morning.
Info
Order Code: GOOGH51
15.68 €
Buy
Available for reading
Order Code: EK40191
13.25 €
Buy
Available for reading
Order Code: EK33556
4.7 18×
Google Nest Audio Chalk
Voice Assistant - OS supported: Android and iOS controls your smart home and plays music, 3 ambient sound microphones, language used: English.
109.90 €
Buy
In stock > 5 pcs
Order by midnight, get it at the AlzaBox in the morning.
Info
Order Code: GOOGnestA1
4.8 667×
Apple HomePod Mini Cosmic Grey
Voice Assistant - Siri for Apple HomeKit, OS supported: iOS controls your smart home and plays music, language used: English and German. - Siri for Apple HomeKit, OS supported: iOS 2,4 GHz WiFi Connection, controls your smart home and plays music, Apple Music support, language used: English, German and In Japanese.
113.90 €
Buy
In stock > 5 pcs
Order by midnight, get it at the AlzaBox in the morning.
Info
Order Code: JA041
4.8 667×
Apple HomePod Mini, White
Voice Assistant - Siri for Apple HomeKit, OS supported: iOS controls your smart home and plays music, 2 ambient sound microphones, Camera, EU distribution, language used: English and German. - Siri for Apple HomeKit, OS supported: iOS 2,4 GHz WiFi Connection, controls your smart home and plays music, Apple Music support, language used: English, German and In Japanese.
113.90 €
Buy
In stock > 5 pcs
Order Code: JA041a1
5.0
Apple HomePod (2nd generation) White
Voice Assistant - Manufacturer app, Siri for Apple HomeKit, OS supported: iOS controls your smart home and plays music, 4 ambient sound microphones, language used: English.
368.90 €
Buy
In stock > 5 pcs
Order by midnight, get it at the AlzaBox in the morning.
Info
Order Code: apple23_01
4.8 667×
Apple HomePod mini Blue
Voice Assistant - Siri for Apple HomeKit, OS supported: iOS controls your smart home and plays music, EU distribution, language used: English and German.
113.90 €
Buy
In stock > 5 pcs
Order by midnight, get it at the AlzaBox in the morning.
Info
Order Code: JA042
4.8 667×
Apple HomePod mini Yellow
Voice Assistant - Siri for Apple HomeKit, OS supported: iOS controls your smart home and plays music, EU distribution, language used: English and German.
113.90 €
Buy
In stock > 5 pcs
Order Code: JA043
4.5 102×
Nest Hub (2nd Gen) Chalk
Voice Assistant - OS supported: Android and iOS controls your smart home and plays music, 3 ambient sound microphones, Display,.
89.90 €
Buy
In stock > 5 pcs
Order by midnight, get it at the AlzaBox in the morning.
Info
Order Code: GOOGH45
4.6 249×
Google Nest Mini 2nd Generation - Chalk
Voice Assistant - OS supported: Android and iOS controls your smart home and plays music, 3 ambient sound microphones, EU distribution, language used: English and German.
47.90 €
Buy
Ordered on request
Order Code: GOOGH52
4.8 667×
Apple HomePod mini Orange
Voice Assistant - Siri for Apple HomeKit, OS supported: iOS controls your smart home and plays music, EU distribution, language used: English and German.
113.90 €
Buy
Ordered on request > 5 pcs
Expected 02/05/2024
Order Code: JA044
4.9 18×
Amazon Echo Dot (5th Gen) with clock Glacier White
Voice Assistant - OS supported: Android and iOS controls your smart home and plays music, 1 ambient sound microphones, Display, hours and Microphone mute button, language used: English.
69.90 €
Buy
In stock > 5 pcs
Order by midnight, get it at the AlzaBox in the morning.
Info
Order Code: AMAECHDO5THWC
Print
P-DC1-WEB02
We will call you and advise you professionally
+420 225 340 120
Order inquiry
Question about the product
Please enter your telephone:
Call me
We care about your privacy Alza.cz a. s., Company identification number 27082440, uses cookies to ensure the functionality of the website and with your consent also to personalisage the content of our website. By clicking on the “I understand“ button, you agree to the use of cookies and the transfer of data regarding the behavior on the website for displaying targeted advertising on social networks and advertising networks on other websites.
More information Less info