Hvordan afrikanske sprog går digital

Indholdsfortegnelse:

Hvordan afrikanske sprog går digital
Hvordan afrikanske sprog går digital

Video: Sådan oversætter du undertekster på YouTube - Borgerservice to go 2024, Kan

Video: Sådan oversætter du undertekster på YouTube - Borgerservice to go 2024, Kan
Anonim

Digitalisering af afrikanske sprog er en kompleks, men nødvendig proces. Nu arbejder akademikere og informationsteknologiselskaber fra hele verden sammen for at integrere nye sprog i forskellige former for software og teknologi.

Selvom der er tusinder af sprog, der tales over hele verden (mange af disse i Afrika alene), er nogle få, ligesom engelsk, stadig allestedsnærværende - især når det kommer til digitale værktøjer og teknologi. Indtil for nylig var værktøjer til oversættelse, stavemåde og grammatik primært rettet mod de almindelige vestlige sprog. Dette fokus begynder at skifte, omend langsomt, for at gøre flere afrikanske sprog digitale.

Image

Udvikling af menneskelig sprogteknologi

Oprindelige afrikanske sprog fik historisk ikke den samme anerkendelse, når det kom til teknologisk integration. Da teknologi fortsætter med at trænge ind i nye afrikanske markeder, ser flere virksomheder behovet for at forbedre Human Language Technology (HLT) på kontinentet. Dette er kritisk for både den igangværende teknologiske udvikling og bevarelsen af ​​hjørnestenen i kulturer i en digital tidsalder.

Ifølge University of Arizona mødes sprog- og informationsteknologi regelmæssigt over hele verden, hvorfor behovet for dygtig forskning og udvikling: ”Overalt sprog kommer i kontakt med informationsteknologi, eller hvor mennesker har brug for at interagere med computere, sprogbehov at være [organiseret], så det kan håndteres og behandles ved hjælp af computermetoder. Dette kræver ofte bred viden, ikke kun om sprogvidenskab og hvordan sprog fungerer, men også om datalogi og beslægtede områder. ”

Tekniske giganter, der investerer i afrikanske sprog

Som et resultat af dette investerer mange store virksomheder, inklusive tech-giganter som Facebook og Google, i HLT'er for afrikanske sprog (om end kun for at øge deres rækkevidde og overskud). De første bemærkelsesværdige ændringer kom i form af muligheden for at bruge Google på forskellige afrikanske sprog. Nogle virksomheder, såsom Microsoft, integrerer også afrikanske sprog i stavekontrol og grammatiske værktøjer.

Der er dog stadig alvorlige underskud, og der er behov for meget arbejde. Som forsker Maria Keet påpeger, at integrere nye sprog med teknologien nøjagtigt og meningsfuldt er mere end bare at slå en switch og kræver i stedet en integreret tilgang: “Hvad er poenget med at søge på nettet i, siger [sydafrikansk sprog] isiXhosa når der er kun et par onlinedokumenter i isiXhosa, og søgemaskinealgoritmerne kan alligevel ikke behandle ordene ordentligt, og derfor ikke returnere de resultater, du leder efter? ”

Mere kompliceret end det ser ud til

Keet fremhæver behovet for ordbehandlingsværktøjer til at inkorporere sprog som disse i stavekontrol for at hjælpe alle - fra skolebørn til fagfolk - med at skrive papirer, dokumenter, beskeder og e-mails på deres modersmål.

Digitalisering af ethvert sprog er kompliceret, og det kræver omfattende forskning og test, før man når et trin med automatisk implementering. Afrikanske sprog kræver også markant mere arbejde end engelsk.

Mens grundlæggende syntaksregler er blevet brugt til digitalisering af det engelske sprog, består mange afrikanske sprog af sætninger, der er meget afhængige af situationens kontekst, har komplekse verb og sætningsstrukturer, og som derfor ikke er let åbne for automatiske værktøjer ved hjælp af strukturerede data.

Som et resultat skal forskere bygge grammatikmotorer for at generere grundlæggende sætninger. Disse kører komplicerede algoritmer, der trækker fra eksisterende tekster, og dette frembringer en række yderligere problemer.

De fleste moderne sprogteknologier trækker fra traditionelle tekster © Glen Noble / Unsplash

Image

Fodring af eksisterende tekster

I kernen i al digital sprogindlæring findes eksisterende tekster, og disse algoritmer lever af disse. At finde og samle disse tekster er vanskelige for mange afrikanske sprog i betragtning af den historiske bias mod vestlige sprog, når det kommer til udgivelse.

På trods af vanskelighederne begynder organisationer rundt omkring på kontinentet at identificere og samle dokumenter af høj kvalitet, der indeholder modersmål af høj kvalitet, der ikke kun inkluderer nøjagtig stavemåde og grammatik, men som også er moderne nok til at blive betragtet som relevante i dag. Uden denne kulturelle kontekst risikerer softwarealgoritmer at være unøjagtige og ufølsomme i bedste fald og direkte racistiske i værste fald.