Napravili smo Al alat za novinare – kakvi su ključni zaključci

Da li će AI biti resurs za redakcije sa opadajućim prihodima? Hoće li to oduzeti poslove ili osloboditi novinare koji su već prezaposleni da proizvode visokokvalitetne priče?

Šta je AI? Šta je NLP?

Prvo, razjasnimo neke definicije. AI se odnosi na kapacitet mašina da obavljaju zadatke koji su obično povezani sa ljudskom spoznajom i inteligencijom. U kontekstu novinarstva, AI se obično odnosi na aplikacije koje analiziraju, razumeju i generišu tekst bez ljudske intervencije.

Obrada prirodnog jezika (NLP) je podskup veštačke inteligencije koja se fokusira na interakciju između računara i ljudi putem prirodnog jezika. Takođe je vredno napomenuti da se „prirodni jezik“ odnosi na jezike koje govore ljudi, kao što je engleski, za razliku od programskih jezika kao što je Pithon.

Veliki deo diskusije oko veštačke inteligencije u novinarstvu zasniva se na NLP sposobnostima. Kroz NLP AI pomaže novinarima da sumiraju članke, prevedu sadržaj i potkrepe informacije. U suštini, NLP omogućava sve aplikacije AI koje koriste naš svakodnevni jezik.

Kako smo razvili AI alat za novinare

Godine 2021. bio sam deo interdisciplinarnog tima koji radi na rešavanju istraživačkog problema. Pokušavali smo da raščlanimo važne informacije sa miliona stranica nestrukturiranih podataka – tzv. teksta. To je dodatno otežavala činjenica da smo radili sa tekstovima koji nisu na engleskom jeziku. Počeli smo da eksperimentišemo sa GPT-3 API-jem i tada smo imali naše tehničko „aha!“ moment.

To je bilo pre nego što je ChatGPT stupio na scenu i kada su novinari bili veoma skeptični prema veštačkoj inteligenciji. Bili smo zauzeti stvaranjem dokaza koncepta kako bismo pokazali snagu ove nove inovacije iz OpenAI.

Počeli smo da eksperimentišemo sa NPR člancima i razvili rezime da ih pretvorimo u brze rezimee, slično Akiosovom stilu članka. Izabrali smo ovaj stil uglavnom zato što smo svi voleli NPR-ove priče, ali su često bile na dužoj strani. Alat koji smo razvili rezimira članke NPR-a čim se objave i čini ih dostupnim na našoj veb stranici, Gist, nakon što novinar pregleda i odobri sažetak.

Rano smo shvatili da je naš početni model „halucinirao“ kada bi rečenice bile duže od nekoliko redova. Sažetak je stvorio neke citate koji su kontekstualno i gramatički imali smisla, ali se nisu pojavili u izvornom članku NPR-a.

„Halucinacije“ u kontekstu NLP-a se odnose na slučajeve u kojima model generiše izlaze koji su ili netačni, neusidreni u ulaznim podacima ili očigledno besmisleni. U našem slučaju, morali smo da se uverimo da su citati u rezimeu zaista postojali u originalnim člancima. Halucinacije u novinarskom kontekstu mogu biti fatalne i mogu dovesti do dezinformacija.

Počeli smo da prilagođavamo model kako bismo sprečili ove halucinacije. Ovo je bio iterativni proces, jer smo morali kontinuirano da obučavamo model i testiramo ga. Takođe smo dodali više novinarskih ograda u proces. Ovaj proces nam je dao neke ključne stvari za buduće primene veštačke inteligencije u novinarstvu.

Naši proizvodi za poneti

Obuka modela koji ima na umu novinarske standarde nije bila laka, ali ovaj dug put nam je razjasnio četiri tačke:

1) Izveštavanje uz pomoć veštačke inteligencije je izvodljivo, ali izveštavanje AI nije. Ljudski nadzor se ne može ukloniti iz novinarskog procesa.

Ljudsko rasuđivanje i odobravanje je sastavni deo svakog novinarskog procesa i, iako možemo da koristimo tehnologiju da preuzmemo dosadne zadatke koji se ponavljaju, ona ne može u potpunosti da zameni novinare. Na primer, u našem modelu, svaki pojedinačni sažetak pročita i odobri novinar pre nego što bude objavljen.

2) AI modeli su dobri koliko i njihova obuka. Da biste dobili najbolje rezultate iz bilo kog jezičkog modela, njegova svrha treba da bude dobro definisana. Tada se može identifikovati najefikasniji put do obuke i proces može početi.

Modeli takođe nisu rešenje za sve. Redakcije bi trebalo da razmotre svoje jedinstvene izazove i zahteve dok istražuju rešenja veštačke inteligencije, a novinari treba da igraju aktivnu ulogu u obučavanju algoritma umesto da ga prepuste samo programerima. Model koji se obučava samo na sudskim dokumentima u Teksasu, na primer, možda neće dati najbolje rezultate sa sudskim dokumentima na Aljasci jer je stil pisanja pravnih mišljenja drugačiji.

3) Interdisciplinarna saradnja je neophodna za AI u novinarstvu. Programeri bez novinara ne mogu sami da se pozabave zadacima kao što su provera činjenica, sumiranje sadržaja i prevođenje. A ni novinari ne mogu sami.

Moramo da stvorimo prostore za saradnju za novinare i programere koji će raditi zajedno, i, što je najvažnije, osigurati da novinari imaju pravo glasa o tome kako se AI koristi u njihovoj profesiji.

4) Trenutni modeli mogu postići odlične performanse koristeći samo podatke o obuci iz svoje organizacije. Otkrili smo da možemo da odgovaramo stilu i kvalitetu koji smo želeli dok smo trenirali samo na podacima koje smo kreirali.

Kvalitetni primeri koje su izradili novinari imaju mnogo više vrednosti i performansi od skupljanja sličnog sadržaja iz drugih izvora. Ovaj proces ne bi trebalo da bude jedan korak, već timovi treba da identifikuju trenutne slabosti modela i da naprave dodatne primere koji pomažu da se pokaže ispravno ponašanje.