Euskara oinarri izango duen ChatGPT modukoa, gero eta hurbilago

BERRIA Ikasgela / 2024-02-06 / 344 hitz

HiTZ Zentroak euskarazko hizkuntza eredurik handiena garatu du: Latxa. Eredu horietan oinarritzen dira adimen artifizialezko txatbotak, eta euskara oinarri duen programa sortzeko lehen urratsa da Latxa.

Urtebete pasa igaro da ChatGPT adimen artifizialaren bidezko programa sortu zutenetik. Ama hizkuntza ingelesa du, eta beste hainbat hizkuntza ere ikasi ditu ordutik, euskara beste hainbaten artean, ingelesez moldatzen bada ere ondoen. Finean, txatbotek hizkuntza eredu handietatik ikasten dute, eta datu base horietan oinarrituta sortzen dituzte erantzunak eta edukiak. ChatGPT Microsoftek garatutako hizkuntza eredu handia du oinarri; Metarenari, berriz, LLaMA deritzo. Eta azken hori baliatu du EHUko Hizkuntza Teknologiako HiTZ Zentroak Latxa sortzeko: euskararentzako hizkuntza eredurik handiena. Horra hor Latxaren logoaren zergatia: llama bat eta ardi latxa bat irudikatu dituzte.

ChatGPT Microsoftek garatutako hizkuntza eredu handia du oinarri; Metarenari, berriz, LLaMA deritzo. Eta azken hori baliatu du EHUko Hizkuntza Teknologiako HiTZ Zentroak Latxa sortzeko.

Zenbat eta erreferentzia gehiago izan, orduan eta errendimendu hobea dute adimen artifizialaren bidezko programek. Horregatik, «arrakala teknologikoa areagotzen errekurtso asko eta gutxi dituzten hizkuntzen artean», azaldu du HiTZek oharrean. Muga horiek gainditzeko sortu dute Latxa, euskarazko produktu, berrikuntza eta produktuen garapena sustatzeko. Eusko Jaurlaritzaren laguntza jaso du proiektuak.

Latxa eredua oinarrizkoa da oraindik, eta asko dute «fintzeko». Hori dela eta, ez dago prest edonork erabil dezan; adituek produktuak garatzeko edo eredu bera aplikazio jakinetara doitzeko bai, ordea. «Oraindik ez dago argi posible izango den euskarazko eredu bat garatzea, gaztelerazko edo ingelesezko GPTk adina kalitate duena; horixe da, hain zuzen, gure helburua», adierazi du Eneko Agirre zentroko zuzendariak. Latxarena «lehen bertsioa» da, eta, beraz, funtsezkoa da aurrerago euskarazko txatbotak garatzeko.

«Oraindik ez dago argi posible izango den euskarazko eredu bat garatzea, gaztelerazko edo ingelesezko GPTk adina kalitate duena; horixe da, hain zuzen, gure helburua».

Eneko Agirre (EHUko Hizkuntza Teknologiako HiTZ Zentroa)

EusCrawl corpusarekin elikatu dute Latxa, euskarazko 1,72 milioi dokumentu eta 288 miloi hitz dituena. Mila milioika parametroren arabera funtzionatzen dute hizkuntza ereduek, eta hiru bertsio probatu ditu HiTZek: zazpi, hamahiru eta hirurogeita hamar mila milioi parametrodunak, hurrenez hurren. «Tamaina handitzen den heinean, emaitzak hobetu egiten dira», Agirreren arabera.

EusCrawl corpusarekin elikatu dute Latxa, euskarazko 1,72 milioi dokumentu eta 288 miloi hitz dituena.

Utzi erantzuna

Zure e-posta helbidea ez da argitaratuko.