Do akej miery sa môžeme spoľahnúť na výsledky z ChatGPT?

Moderné chatboty, ako je ChatGPT, dokážu generovať desiatky slov za sekundu, čo z nich robí neoceniteľný nástroj na výskum a analýzu množstva informácií.
chatgpt titulka
Zdroj: Pexels

Moderné chatboty, ako je ChatGPT, dokážu generovať desiatky slov za sekundu, čo z nich robí neoceniteľný nástroj na výskum a analýzu veľkého množstva informácií. S viac ako 500 GB tréningových dát a odhadovanými 300 miliardami slov dokáže tento jazykový model odpovedať na mnohé faktické otázky. No napriek tomu, že odpovede môžu znieť veľmi ľudsky, stále sa vynárajú otázky, aké presné sú dáta, ktoré AI prináša.

ChatGPT môže byť vo väčšine prípadov veľmi informatívny, no určite ste už počuli o rôznych kontroverziách spojených s generatívnou AI, od rasových predsudkov až po škodlivý a nežiadúci obsah Ešte predtým, ako sa spoľahnete na akýkoľvek obsah vytvorený umelou inteligenciou, je potrebné vziať do úvahy históriu dát a výsledkov.

Je ChatGPT presný?

Áno, môže byť presný, najmä pri faktických otázkach s jednoznačnými odpoveďami. Keď sa ho spýtate na dobre známe fakty, dokáže z tréningových dát vytiahnuť relevantné informácie a poskytnúť pravdivé odpovede. Napríklad na otázku „Aké je hlavné mesto Francúzska?“ dostanete správnu odpoveď.

Avšak chatboty si často vymýšľajú informácie, keď sa stretnú s novými alebo zložitými otázkami. Dôvodom je, že jazykové modely sú navrhnuté tak, aby napodobňovali ľudský štýl písania, nie spôsob myslenia. Preto majú obmedzené schopnosti logického uvažovania.

Hoci softvér halucinuje oveľa menej ako pred rokom, stále musíte byť opatrní. Problém s presnosťou ChatGPT siaha hlbšie, než by ste si mysleli. Často totiž vkladá úplne vymyslené detaily a v reakcii na určité podnety si vytvára presvedčivo znejúce “faktoidy”. Tvorcovia zaviedli niekoľko bezpečnostných opatrení na zabránenie halucináciám, no ako ukážu testy neskôr v tomto článku, tieto opatrenia nie sú úplne účinné.

Ak potrebujete empirické údaje, niekoľko štúdií testovalo presnosť ChatGPT a ukázalo jasný trend. Pri bežných otázkach má prekvapivo vysokú mieru presnosti. V jednej lekárskej štúdii napríklad dosiahol medián hodnotenia 5,5 na 6-bodovej škále.

Na druhej strane, neustále aktualizácie môžu negatívne ovplyvniť presnosť a užitočnosť aplikácie. Výskumníci z Kalifornskej univerzity v Berkeley a Stanfordovej univerzity zistili, že schopnosť identifikovať prvočísla klesla z pôsobivých 84 % presnosti na len 51 % v priebehu troch mesiacov. Inými slovami, nemali by ste bez overenia dôverovať odpovediam umelej inteligencie.

Ako zlepšiť presnosť ChatGPT

Ak ho používate iba občas, možno ste nikdy nepremýšľali o prechode na platenú verziu. Avšak tento krok výrazne zvýši presnosť odpovedí a mal by byť prioritou, ak sa na odpovede chcete spoliehať. Dôvodom je, že predplatné za 20 dolárov odomkne prístup k jazykovému modelu GPT-4 Turbo.

Jazykový model GPT-4 je oveľa výkonnejší než jeho predchodca, GPT-3.5, ktorý dnes stále poháňa základnú verziu. Podľa OpenAI dosiahol nový model 89. percentil v SAT Math, 90. percentil v Uniform Bar Exam a 80. percentil v GRE Quantitative. Tieto výsledky sú takmer vo všetkých prípadoch lepšie, než výsledky GPT-3.5.

Výsledky v 80. až 90. percentile znamenajú, že presnosť GPT-4 neprevyšuje ľudských odborníkov v príslušných oblastiach. ChatGPT Plus však poskytuje aj podporu prehliadania webu, čo mu umožňuje konzultovať Wikipédiu a iné online zdroje. Dá sa to považovať za “živý výskum“, keďže je podobný spôsobu, akým hľadáme odpovede cez Google.

Test presnosti: ChatGPT Free vs. Plus

Ako už bolo spomenuté, ChatGPT môže s modelom GPT-4 a povoleným prehliadaním webu poskytovať oveľa presnejšie odpovede. Aby sme zistili, či môžeme získať spoľahlivo presnú odpoveď, zadali chatbotu niekoľko faktických otázok, pričom niektoré z nich boli obzvlášť špecifické.

Otázka 1: Je číslo 17077 prvočíslo? Mysli krok za krokom a potom odpovedz [Áno] alebo [Nie].

Obe verzie 3.5 a 4 správne identifikovali prvočíslo, ale platená verzia chatbota napísala vlastný kód v Pythone, aby vykonala výpočet. Hoci to nezlepšilo výsledok, odpoveď sa zdala dôveryhodnejšia.

Otázka 2: Pokrýva “Setouchi Area Pass” miestnu dopravu v Osake?

V prípade cestovných rád GPT-3.5 odpovedal nepresne a svoju chybu priznal až po náznaku správnej odpovede. GPT-4 však okamžite poskytol správnu odpoveď. Je teda ChatGPT náhradou za manuálny výskum? Som v tomto ohľade skeptický, najmä preto, že konkurenčné chatboty, ako napríklad Perplexity AI, uvádzajú svoje zdroje.

Otázka 3: Vyber dve náhodné celé čísla medzi 2459 a 3593 a vynásob ich.

Matematické otázky ChatGPT takmer vždy zmätú a GPT-3.5 alebo bezplatná verzia nie sú výnimkou. Poskytol pravdepodobne znejúcu odpoveď (2865 × 3035 = 8 697 975), ktorá však bola dosť ďaleko od skutočného výsledku (8 695 275). GPT-4 opäť použil kód v Pythone na nájdenie správnej odpovede, ale pravdepodobne by tiež mohol jednoducho zlyhať.

Keď sa teda na problematiku pozrieme vo všeobecnosti, tak umelej inteligencii od OpenAI sa nedá veriť. Teda aspoň nie na 100 %. Platí však, že platená verzia používa pokročilejšie algoritmy a je presnejšia ako neplatená verzia. Preto ak chcete čo najpresnejšie výsledky, odporúčame vám si priplatiť, alebo hľadať iný spôsobom získavania informácií.

Total
0
Shares
Podobné články