Ar galėjote kada įsivaizduoti, kad klasikinis lietuvių literatūros šedevras – Vinco Mykolaičio-Putino romanas „Altorių šešėly“ – galėtų virsti matematiniais algoritmais išreikšta diagrama? Neįmanoma, pamanysit. Literatūra per daug gili, nesusisteminama, emocionali. O vis dėlto… Vilniaus universiteto Matematikos ir informatikos fakulteto (MIF) prodekanas dr. Linas Bukauskas su studentais kuria teksto emocionalumą išmatuoti galinčią sentimentų analizės programą.
Ištakos – religinė nesantaika
Kompiuterinė sentimentų analizės plėtra pasaulyje, kaip pasakytų su projektu dirbantis MIF magistrantas Vilius Okockis, dabar yra „ant bangos“. Panašūs modeliai programuojami jau senokai, tačiau VU mokslininkai – pirmieji šio metodo kūrėjai Lietuvoje. „Anglų kalboje tai veikia, kodėl neturėtų veikti mūsiškėje?“ – retoriškai klausia dr. L. Bukauskas.
Norėdamas magistrantams pateikti įdomias, pritaikomas ir galbūt komerciškai sėkmingas užduotis, prieš keletą metų dr. L. Bukauskas pasiūlė, pasinaudojant kompiuterine teksto analize, nustatyti rašytinio teksto įžeidumo potencialą. Iš pradžių ieškota religinės nesantaikos kurstymo apraiškų. „Sukūrėme taisyklėmis grįstą algoritmą, kurio paskirtis nustatyti, ar tekste yra kokių nors šabloniškų frazių, galinčių padaryti jį įžeidų. Pavyzdžiui, jei žmogus parašo žodį DIEVAS – visos raidės didžiosios – tikriausiai jam teikiama daug dėmesio. Arba Dievas rašomas greta keiksmažodžio – akivaizdu, kad šis komentaras gali turėti įžeidumo potencialo“, – aiškina dr. L. Bukauskas. Anot jo, šiais metais sukurtas prototipas, gebantis iš esmės įvertinti elektroninės knygos sentimentalumą. Pradėta nuo V. Mykolaičio-Putino „Altorių šešėly“.
Mokslininkai sukūrė specialius kalbos analizatorius. Kalba skaidoma, tiriama įvairiais lygiais – apskaičiuojamas ne vieną parametrą turintis emocinis vektorius. „Tekstui suteikiamas matematinis svoris, kuris atsiranda, kai iš toje pačioje pastraipoje esančių žodžių vedamas bendras vardiklis“, – dėsto dr. L. Bukauskas.
Dabartinėje sentimentų analizės programoje naudojamas dr. Paulo Ekmano sukurtas bazinių emocijų klasifikavimo modelis. Tekstas analizuojamas ieškant laimės, liūdesio, pykčio, baimės, nuostabos ir pasibjaurėjimo emocijų. Į laimės kategoriją įtraukiami žodžiai, besisiejantys su šia emocija, pavyzdžiui, malonumas, meilė, džiaugsmas. Su liūdesiu gali būti tapatinami žodžiai, reikšiantys sielvartą, skausmą, ašaras. „Kitaip tariant, yra sukurta analitinė sistema, leidžianti tekstą išskaidyti į tam tikras sudedamąsias dalis, atlikti tam tikrus sakinio konstrukcijos patikrinimus. Vadovaujantis tuo, kaip sakiniai sudėlioti, kaip pats tekstas parašytas, išskiriamas koeficientas, dėl kurio galima pasakyti, tarkim, jog ši pastraipa turi tiek ir tiek laimės“, – sistemos veikimo principus supaprastinti bando dr. L. Bukauskas. Tiriant teksto emocionalumą, matuojamas ir neigiamas koeficientas. Galima nustatyti ne-laimę, ne-liūdesį, ne-baimę ir pan.
Kam to reikia?
Iš pirmo žvilgsnio gali pasirodyti, kad automatinė sentimentų analizė – bergždžias reikalas: pats perskaitai ir žinai, kokios emocijos dominuoja. Tačiau gyvename informacijos pertekliaus amžiuje, žmonės nebeturi laiko su viskuo susipažinti, viską perskaityti ir apdoroti. Juoba kad viešasis diskursas – heterogeninė erdvė, kurioje pinasi įvairiausios sferos. Sentimentų analizės programa, pasak kūrėjų, galėtų būti pritaikoma ir politikoje, ir versle, ir nesantaikos kurstymo nusikaltimų prevencijos srityse.
Dr. L. Bukauskas tvirtina, kad veltis į politines batalijas tikrai neketina, tačiau jo kuriama sistema galėtų padėti kritiškam partijų programų ir pasisakymų vertinimui. „Pasinaudojant sentimentų analize, įmanoma nustatyti, kiek politinių kampanijų tekstuose esama racionalumo. Savotiškai išmatuojama propagandos apimtis“, – teigia jis. Be to, valdžios institucijos, nenaudodamos sociologinių apklausų, turėtų galimybę pasitikrinti, ar koks nors sprendimas visuomenei priimtinas. „Pavyzdžiui paskutinis RRT (Ryšių reguliavimo tarnyba – aut. past.) skandalas. Automatizuotu būdu galima sužinoti, ar žmonės yra nusivylę tuo, kad RRT paprašė duomenų. Žinoma, dauguma interneto portalų ir jų komentatorių rašo neigiamai, tačiau, žinodami, kad prieš tai vertinta nepalankiai, o dabar dar nepalankiau, suinteresuoti žmonės galėtų pasidaryti tam tikras išvadas“, – svarsto dr. L. Bukauskas.
Sentimentų analizės programos siūloma galimybe įvertinti emocinį kokio nors literatūros kūrinio foną galėtų pasinaudoti ir leidybos verslo atstovai. „Knygų redaktoriams tikrai padėtų. Prieš nusprendžiant leisti kokią nors knygą, išanalizavus jos emocinį foną ir palyginus su kitų panašių kūrinių pardavimais, įmanoma prognozuoti, ar ji bus perkama. Tai galėtų tapti vienu iš veiksnių, lemiančių leidybą“, – kalbėjo V. Okockis.
Sentimentų analizę pritaikant internetinių komentarų turinio tyrimui, palengvėtų žmogaus garbę ir orumą žeminančių pasisakymų nustatymas. Tai nereiškia, kad kompiuterinė sistema nuspręstų, ar internetinio komentaro autorius kursto religinę, rasinę nesantaiką, ragina susidoroti su tautine, seksualine ar kitokia mažuma. Teisėsaugos pareigūnai, pasinaudodami šiuo įrankiu, vykdytų pirminę tekstų atranką. Iš tūkstančių per dieną pasirodančių komentarų būtų išskirti potencialiai įžeidūs pareiškimai. Juos įvertinus profesionalams, autoriai galėtų būti traukiami baudžiamojon atsakomybėn.
Yra kur tobulėti
Mokslininkai sutinka, kad jų prototipas nėra visapusiškai puikus ir užbaigtas. Pripažinkime, kalba – vienas greičiausiai kintančių ir sunkiausiai susisteminamų reiškinių pasaulyje. Nesunku įsivaizduoti, kad dr. L. Bukausko komanda susiduria (be abejonės, susidurs ir ateityje) su iššūkiais, skatinančiais mąstyti, kaip esamą modelį plėtoti ir tobulinti.
„Kitas mūsų žingsnis – įtraukti ir Filosofijos fakulteto mokslininkus, kurie padėtų pritaikyti sudėtingesnius psichologinius modelius“, – ateities planus atskleidžia dr. L. Bukauskas. Daugiau dėmesio turėtų būti skirta kokybinio vertinimo stiprinimui. Kadangi susiduriama su kalbos supratimo, interpretavimo, sudarymo barjerais, neatmestina bendradarbiavimo su kalbininkais galimybė.
Pradžioje mokslininkai rinkosi paprastą variantą, kadangi norėjo įsitikinti, ar šis modelis veiksmingas. „Apsiribojome tam tikrais modifikatoriais, nustatančiais, kaip vieni žodžiai veikia kitus, kaip nustatyti paprastą emociją ir jos neigimą. Vėliau reikėtų koncentruotis į įvairių metaforų, kitų kalbinės raiškos formų aptikimą“, – ateities perspektyvą brėžia V. Okockis. „Toliau bus galima prisiliesti prie sudėtingesnių kalbinės analizės dalykų. Perkeltinė prasmė, nutylėjimai, daugtaškis. Kaip reikėtų matematiškai traktuoti šį skyrybos ženklą? Turime kur tobulėti, vadinasi, esame teisingame kelyje“, – džiaugiasi dr. L. Bukauskas.
Komentarų: 4
2014-11-27 22:20
ArūnasSveiki, kolegos,
Bendradarbiauti pasirengę, tačiau jūs toli gražu nebe pirmieji :). Kol kas naudojamės Alano Briero programa HAMLET II 3.0. Buvo atvykęs ir pats programos autorius.Daugiau čia: http://apb.newmdsx.com/hamlet2.html.
Iki,
Arūnas Poviliūnas
2014-11-27 23:12
LinasArūnai, jei žinote kas lietuvių kalbai padarė automatizuotą būdą sentimentams, o ne šiaip hamletu žodžių dažnius suskaičiavo ir koalokacijas – norėčiau pabendrauti. Man atsiųskite kontaktus emailu.
2014-11-28 08:38
ArūnasSveiki, Linai,
Ne, tikrai nežinau. Matyt, reikėtų susitikti. Kitą savaitę parašysiu Jums asmeniškai.
2014-11-28 20:44
dKoks reiksmingas ivykis visu laukia kita savaite! Net pavydziu.