
IT ALARM!!!!
NEJVETSIM PROBLEMEM SE ZACINA STAVAT PRISTUP IT FIREM, KTERE PRESTAVAJI ZVLADAT SITUACI NEB NEVEDI, CO CINI...
Moderní AI modely (včetně těch, na kterých stojí celý průmysl) mají miliardy parametrů.
Nikdo — ani jejich inženýři — už neví, proč model odpovídá tak, jak odpovídá.
Vzniká paradox: čím víc se model učí, tím víc se vzdalujeme možnosti vysvětlit jeho chování.
Navenek se prezentuje „dokonalost“, ale v jádru je to black box s nejasnou kauzalitou.
🧩 To je, jako by pilot letadla začal pouze sledovat autopilota — a už sám nerozuměl aerodynamice stroje, který řídí.
Systém je příliš složitý na to, aby mu rozuměl jednotlivec – a příliš mocný na to, aby šel zastavit.
AI se dívá ne na obsah slov, ale na způsob, jakým jsou vyslovena.
Zpracovává stovky mikro-parametrů řeči – např.:
| Kategorie | Příklady měřených rysů | Co to napovídá |
|---|---|---|
| Tempo řeči | rychlost slov / s | Napětí, nervozita, vzrušení |
| Intonace (pitch) | průměrná výška hlasu, odchylky | Radost, strach, hněv |
| Hlasitost (energy) | RMS intenzita, dynamika | Agrese, sebevědomí, klid |
| Melodická křivka | změny výšky v čase | Emoční „tón“ hlasu |
| Pauzy / přerušování | délka a frekvence ticha | Váhání, smutek, úzkost |
| Spektrální rysy (MFCC, formanty) | jemné rezonance hlasivek | Napětí, únava, autenticita |
Současně běží jazykový model (LLM), který rozumí, co bylo řečeno:
slova s emočním nábojem („jsem zoufalý“, „to je skvělé“, „nechci to slyšet“)
modální slovesa a fráze (např. „asi bych měl…“, „nevím, jestli to zvládnu…“)
struktura vět (dlouhé váhavé vs. krátké úderné odpovědi)
srovnání s kontextem předchozí konverzace
Model tedy kombinuje akustický tón + jazykový význam, čímž dostane tzv. emoční vektor — např. [anger: 0.7, fear: 0.1, joy: 0.2].
Zde se vše propojí – výstup z akustické části (hlas), textové části (obsah) a někdy i z vizuální části (pokud jde o video).
Používají se architektury typu:
Multimodal Transformers
Late Fusion LSTMs
Attention pooling – model si „všimne“, které rysy jsou nejrelevantnější.
Tím AI dokáže vyhodnotit aktuální emoční stav uživatele v čase, nikoli jen okamžitý výkyv.
Když AI pozná, že uživatel je:
podrážděný → ztiší hlas, mluví pomaleji a klidněji
veselý → přidá energii, optimističtější intonaci
smutný → zjemní tón, použije „uklidňující“ fráze
zmatený → nabídne jasnější kroky, zopakuje odpověď
To se děje v reálném čase – díky tomu hovor působí lidsky, protože reakce přichází v souladu s emocí volajícího.
Každý hovor (se souhlasem uživatele) se anonymizuje a použije k dalšímu tréninku – model se učí, jaké emoční reakce byly efektivní (např. zda uživatel zůstal na lince, uklidnil se, poděkoval apod.).
Tím se AI v čase stává empatičtější.
AI nerozumí emocím „po lidsku“ — rozpoznává vzorce v energii, rytmu a významu řeči, které statisticky odpovídají lidským pocitům.
A když tyto vzorce zkombinuje, umí reagovat jako někdo, kdo tě chápe.