Algoritmos identitàrios, conca a una decolonizatzione digitale de su sardu in tempos de IA (Segunda parte)

Sighimus cun sa publicatzione de unu traballu de s'Uls Monte Arvu in contu de limba sarda e IA. Inoghe sa prima parte



II. Su disafiu tècnicu de su sardu, "low-resource language"

Si sos datos sunt su petròliu nou, su sardu est in una cunditzione de sicagna estrativa. Cunforma a su chi si narat in su campu de s'elaboratzione de su linguàgiu naturale (Nlp, Natural language processing), su sardu est classificadu comente unu Low-Resource Language (Lrl), est a nàrrere una limba cun pagas resursas a beru. Custa eticheta non definit sa dignidade culturale de sa limba, ma sa disponibilidade sua in formados chi sas màchinas potzant "mastigare": testos digitalizados, currègidos, etichetados e, mescamente, bundantes.

Su "Data Hunger" e su fàmene de sos algoritmos

Sos Large language models (Llm) modernos, comente sos chi tenent sas IA prus avantzadas de su 2026, sunt ladros de datos. Pro imparare a sintetizare unu pensu coerente in inglesu o in italianu, s’ant papadu trilliones de paràulas pigadas dae Wikipedia, giornales online, forum e libros digitalizados. Su sardu, mancari tèngiat una traditzione literària seculare, sufrit unu gap de digitalizatzione prus chi non drammàticu. Parte manna de su patrimòniu linguìsticu isulanu, cando no est in sas memòrias orales ebbia, est in archìvios fìsicos chi non sunt inditzizados o in publicatziones locales chi mai ant barigadu su limenàrgiu de sas bases de datos globales.

Sena una massa crìtica de datos, s’intelligèntzia artifitziale si faddit in duas maneras: o refudat de rispòndere (sustentende de non connòschere sa limba) o, e non s’ischit ite est peus, gènerat "allucinatziones sintàticas". In custu casu s'algoritmu àplicat s'istrutura gramaticale de s'italianu aplichende·bi unu vocabulàriu sardu superfitziale, creende una limba-Frankenstein chi “sonat” pro una màchina ma resurtat aliena e pagu autèntica pro unu locutore nativu.

Tokenizatzione e costos de s'invisibilidade

Una chistione tècnica chi a s’ispissu disconnoschimus est sa de sa tokenizatzione. Sas IA non leghent sas paràulas che a nois, ma las partzint in "token" (bìculos de caràteres). Sos tokenizer sunt perfetzionados pro sas limbas dominantes. Cando un'IA leghet su sardu, sende chi reconnoschet sas raighinas de sas paràulas, las partzit in cantzigheddos minores privos de significados.

Custa cosa non produit cunsighèntzias in contu de calidade ebbia, ma finas in contu de costos e de efitzèntzia: s’elaboratzione de una frase in sardu pedit a s'IA una potèntzia de càrculu prus manna (e duncas prus energia e prus dinare) cunforma a sa matessi frase in inglesu. Una limba cun pagas resursas est duncas prus grae e costosa pro su sistema digitale.

Istrategias de subravivèntzia. Transfer learning e synthetic data

Sa tecnologia de su 2026 oferit sa possibilidade de rugrare caminos prus curtzos. Unu de custos est su Transfer Learning (imparu cun trasferimentu). Sigomente su sardu est una limba romanza, sos isvilupadores podent annestrare modellos chi isfrutant su chi s'IA ischit giai de su latinu, de s'italianu, de s'ispagnolu o de su catalanu, "trasferende" custas cumpetèntzias a s'istrutura sarda. Est comente chi s'IA impararet su sardu non dae comintzu, ma che a unu poliglotta chi reconnoschet raighinas comunas.

Una àtera frontera est sa generatzione de datos sintèticos. In mancàntzia de unu nùmeru bastante de testos iscritos, s'impreant modellos intermèdios pro generare milliones de frases curretas in sardu, chi posca cherent validadas dae espertos umanos e impreadas pro annestrare a nou s'intelligèntzia artifitziale. Est unu protzessu de "auto-alimentatzione" linguìstica chi pedit però una supervisione culturale pretzisa meda pro chi non si codìfichent errores in forma permanente.

Su standard (Lsc) comente "ponte de silìtziu"

In custu cuntestu, su ruolu de sa Limba sarda comuna (Lsc) no est prus petzi unu sèberu polìticu ma una netzessidade ingegnerìstica. Pro unu carculadore, sa variatzione ortogràfica est abbolotu. Si iscriimus sa matessi paràula in deghe modos diferentes cunforma a sa variedade locale, s'algoritmu no l’at a cumprèndere a lestru chi su cuntzetu est su matessi, diluende galu de prus sa base de datos disponìbile chi est giai fartosa de se.

S'adotzione de un'istandard ortogràficu e grammaticale normalizat su signale. Permitet de ragrupare sos datos in un’eticheta ùnica, faghende prus lestru e pretzisu s'aprendimentu de s'IA. Una borta chi su "motore" tzentrale de s'IA at imparadu su sardu istandard, est meda prus fàtzile a l’imparare sas isfumadure e sas variantes de su campidanesu, de su logudoresu, de mesania. Sena una truncu comune (s'istandard), sos ramos de sas variantes sunt tropu dèbiles pro règhere su pesu de un'architetura digitale cumplessa.

Sa risposta de sa comunidade: crowdsourcing e Common voice

De cada maera, su disafiu tècnicu no lu binchimus petzi in sos laboratòrios de chirca, ma fintzas in sas pratzas digitales. Progetos comente Common Voice de Mozilla dimustrant chi sa regorta de datos àudio e testuales podet èssere democratizada. Tocat a mobilitare òmines e fèminas pro chi "donent sa boghe issoro": registrende mìgias de oras de faeddadas in sardu pro permìtere a sas IA de imparare sa fonètica e s'atzentu naturale.

No est petzi un'esertzìtziu tècnicu; est un'atu de resistèntzia culturale. Cada frase registrada est una pedra chi fraigat sa domo digitale de sa limba. Su "disafiu de sas risursas iscarsas" lu binchimus trasformende cada locutore in unu contributore de datos, garantende chi su sardu no abarret in dae segus e permitende chi potzat devènnere unu casu-istùdiu bene resèssidu pro totu sas limbas minoritàrias de su mundu.

Post popolari in questo blog

Glocale e digitale, una tzitadinàntzia linguìstica noa. Ses cursos gratùitos de sardu

Boghes in sa Foghe. In Santu Giuanne de Pasada sa Die internatzionale de sa Poesia