Hoppa yfir valmynd
14. júní 2024 Menningar- og viðskiptaráðuneytið

Meiriháttar framfarir í íslenskufærni mállíkana

Ráðherra og sendinefnd í höfuðstöðvum OpenAI í San Francisco.  - mynd

Frá vinstri: Guðrún Nordal (Árnastofnun), Hafsteinn Einarsson (HÍ), Anna Björk Nikulásdóttir (Grammatek), Óttar Kolbeinsson Proppé (MVF), Steinþór Steingrímsson (Árnastofnun), Linda Ösp Heimisdóttir (Miðeind), Lilja Dögg Alfreðsdóttir menningar- og viðskiptaráðherra, Elizabeth Proehl (OpenAI), Lilja Dögg Jónsdóttir (Almannarómur), Páll Ásgeir Guðmundsson (SA), Björgvin Ingi Ólafsson (Deloitte), Vilhjálmur Þorsteinsson (Miðeind), Jóhanna Hreiðarsdóttir (MVR). Jón Guðnason (HR) var einnig í sendinefndinni.

Íslenskan hefur aldrei staðið eins vel í nýrri tækni og hún gerir í dag. Þetta sýnir samanburður á frammistöðu tveggja helstu mállíkana heims í íslensku. Samstarf menningar- og viðskiptaráðuneytisins og máltæknifyrirtækisins Miðeindar við bandaríska tæknifyrirtækið OpenAI hefur skilað mælanlegum árangri og margfalt betri íslenskufærni vinsælasta mállíkans heims.

Mynd sem inniheldur texti, skj�mynd
Lýsing sjálfkrafa búin til

Nýjasta mállíkan tæknifyrirtækisins OpenAI, GPT-4o, sýnir betri frammistöðu í íslensku eftir samstarf við íslenska máltækni- og gervigreindarfyrirtækið Miðeind. Open AI hefur, með aðstoð Miðeindar, m.a. nýtt sér gögn úr máltækniáætlunum Íslands til að bæta getu líkansins í íslensku.

Mállíkanið GPT-4 kom út í mars 2023 og vakti þá athygli hérlendis fyrir færni sína í íslensku, sem var umfram það sem við mátti búast fyrir svo lítið tungumál, þó nokkuð vantaði enn upp á málfræðikunnáttu líkansins. Nú rúmu ári síðar, hefur nýjasta líkan OpenAI, GPT-4o verið gefið út en það sýnir allt að þrefalt meiri færni á ýmsum sviðum íslenskunnar. Þetta staðfesta mælipróf sem Miðeind hefur keyrt á líkönum fyrirtækisins, sem mæla meðal annars málskilning þeirra á íslensku, stafsetningargetu og málfræðihæfni.


Mynd sem inniheldur texti, skj�mynd, n�mer
Lýsing sjálfkrafa búin til


Á myndinni að ofan sjást framfarirnar greinilega. Líkanið GPT-3.5 hafði ekki verið þjálfað sérstaklega í íslensku og náði engum árangri í prófi Miðeindar. GPT- 4, sem kom út í mars 2023, svaraði með réttum sambeygingum á nafnorðum og lýsingarorðum í 22% tilvika. GPT-4 Turbo (uppfærsla sem var gefin út í nóvember 2023) sýndi verulegar framfarir í íslensku og náði réttum beygingum í 57% tilvika. Nýjasta líkanið, GPT-4o, sem kom út um miðjan maí náði svo enn betri árangri og beygði rétt í 66% tilvika.

Þetta eru ótrúlega ánægjulegar fréttir og sýnir hvað það er mikilvægt að halda áfram að eiga í samstarfi við erlend tæknifyrirtæki til að tryggja það að íslenskan eigi sér framtíð í stafrænum heimi. Stjórnvöld hafa farið í milljarða fjárfestingu til að safna gögnum og gera þau aðgengileg svo íslenskan geti staðið við hlið stóru tungumálanna í tækniheiminum. Sú fjárfesting er nú að skila sér og það er mikil viðurkenning á okkar starfi að sjá fyrirtæki á borð við OpenAI nýta sér okkar tækni og sjá mælanlegan árangur af því starfi, segir Lilja Dögg Alfreðsdóttir, menningar- og viðskiptaráðherra. 

Áþreifanlegur árangur

Tilkynnt var um samstarf Íslands og OpenAI í fyrra þegar fyrirtækið gaf út mállíkanið GPT-4 en þá var íslenska fyrst tungumála utan ensku sem líkanið var sérstaklega þjálfað í með svokölluðu viðgjafarnámi (e. Reinforcement Learning with Human Feedback). Samstarfinu var komið á í kjölfar fundar sendinefndar forseta Íslands og menningar og viðskiptaráðherra með Sam Altman, forstjóra og stofnanda OpenAI í San Francisco í maí 2022. 

Vinnan til þessa hefur skilað áþreifanlegum árangri og lýstu bæði Miðeind og OpenAI vilja sínum til þess að halda henni áfram á fundi sem sendinefnd á vegum menningar- og viðskiptaráðherra átti með fyrirtækinu þann 10. maí síðastliðinn.

„Samstarfið við OpenAI hefur verið einstaklega ánægjulegt enda hafa þau sýnt og sannað að þeim er virkilega annt um litla tungumálið okkar. Þau hafa verið mjög móttækileg fyrir hugmyndum og endurgjöf frá okkur og það hefur verið magnað að sjá afrakstur samstarfsins endurspeglast í stöðugri bætingu á íslenskugetu GPT-4-líkananna. Gervigreindartækni hefur tekið stórstígum framförum undanfarið og á eftir að hafa mikil áhrif. Þess vegna skiptir miklu máli að minni tungumál á borð við íslenskuna séu með í þróuninni og að hægt verði að njóta þeirra tækifæra sem þarna eru að skapast, á okkar eigin tungumáli“, segir Linda Heimisdóttir, framkvæmdastjóri Miðeindar.


Nýtt mállíkan aðgengilegt á Íslandi

Sendinefndin fundaði einnig með fyrirtækinu Anthropic, sem er vaxandi fyrirtæki á sviði gervigreindar. Anthropic hefur undanfarið vakið töluverða athygli fyrir mállíkanið Claude og er nú einn helsti keppinautur OpenAI, með Amazon sem hluthafa og bakhjarl. Claude var skömmu eftir fund sendinefndarinnar gert aðgengilegt í Evrópu í fyrsta skipti.

Mælingar sem Miðeind hefur framkvæmt sýna getu Claude 3 Opus í íslensku sem kemst mjög nærri færni nýjasta líkans OpenAI. Á fundi sendinefndar með fulltrúum Anthropic máttu þau lítið gefa upp um nákvæmar aðferðir við þjálfun líkansins en líkur má leiða að því að íslensk gögn sem safnað hefur verið á vegum máltækniáætlana stjórnvalda hafi verið notuð við þjálfun á Claude 3.

Mynd sem inniheldur texti, skj�mynd
Lýsing sjálfkrafa búin til

Enn langt í land


Þrátt fyrir þennan góða árangur við að koma íslensku að í erlendri tækni er enn langur vegur að því markmiði að íslenska verði jafngild stórum tungumálum í tækniheiminum en sendinefnd ráðherra fundaði einnig með aðilum á borð við Microsoft og Google í vor. Þeir fundir skiluðu mikilvægum tengingum og standa nú yfir viðræður við fyrirtækin um að koma íslensku betur að í þjónustum þeirra.

„Allar vonir standa til þess að álíka fagnaðarfrétta verði að vænta úr herbúðum fleiri fyrirtækja á næstunni. Flest hinna stóru tæknifyrirtækja hafa undanfarið kynnt nokkuð byltingarkenndar nýjar vörur sem mikilvægt er að tali íslensku svo þær geti nýst okkar fyrirtækjum og samfélagi,“ segir Lilja Dögg Jónsdóttir, framkvæmdastjóri Almannaróms, miðstöðvar í máltækni.


Efnisorð

Hafa samband

Ábending / fyrirspurn
Ruslvörn
Vinsamlegast svaraðu í tölustöfum