Wiktionary:Om alfabetisering av thai og laotisk

Thai og laotisk skrives med beslektede skriftsystemer. Disse skriftsystemene er abugidaer, dvs. at konsonantene ansees for å bokstaver, mens vokalene kun er tilleggstegn som modifiserer uttalen til konsonanten. En av særegenhetene ved abugidaer, i motsetning til alfabetisk skrift, er at vokaltegn ikke nødvendigvis skrives etter konsonanten i fonemisk rekkefølge: De kan også skrives over, under eller foran en konsonant, selv om de skal uttales etter konsonanten.

Unicode-standarden for koding av skrift, har som prinsipp at for abugidaer skal skrifttegnene kodes fonemisk, dvs. at skrifttegn kodes i den rekkefølgen de uttales, istedenfor den rekkefølgen de skrives i. Dette gjør at et vokaltegn som skrives foran en konsonant likevel skal skrives etter denne konsonanten. Dette er f.eks. hvordan kodingen av khmer fungerer. Untaket til denne regelen er thai og laotisk, hvor tegn kodes i den rekkefølgen tegnene skrives i. Dette skaper noen problemer når man skal alfabetisere ord, som f.eks. i kategorier. I kategoriene, ønsker vi at ord alfabetiseres som i en vanlig ordbok, dvs. først etter ordets første konsonant, deretter vokal, så siste konsonant og til slutt tonemerke.

Måten å omgå dette problemet på er at hver gang man lager en oppføring av et ord på thai eller laotisk, så legger man også inn en sortering for ordet, som gjør at ordet vil komme i rett alfabetisk rekkefølge. Denne guiden kommer for enkelhets skyld, bare til å oppgi eksempler i thai-skrift; prinsippene er dog akkurat de samme for laotisk skrift.

Når det gjelder sortering, er dette svært enkelt: Man legger inn en annen utgave av ordet, der bokstavene i ordet er gjengitt i den rekkefølgen man ønsker at de skal sorteres i. Dette gjelder primært for ord med vokaler som skrives foran konsonanten de hører til, og ord med tonemerker, ettersom etterskrevne vokaler og vokaler som er over eller under konsonanten de hører til, alle er kodet etter denne konsonanten, og derfor ikke skaper noen problemer for alfabetiseringen av ordet.

For at ta et enkelt eksempel: Ordet ไข (egg) skal sorteres som ขไ. Tilsvarende for รถไฟ som kodes som รถฟไ. Vi aner allerede at dette vil skape problemer med sammensatte vokaler, som ofte inneholder vokalen เ-. For å begynne med et enkelt ord: i เขา må เ kodes etter ข, า vil forbli det siste tegnet i ordet, slik at เขา kodes ขเา. Dette vil skape et problem for sammensatte vokaler som i ordene เสือ og เรียน, der en del av den sammensatte vokalen er skrevet over konsonanten den hører til. Her må hele den sammensatte vokalen settes etter konsonanten, og เสือ og เรียน blir til henholdsvis สเือ og รเียน. Untaket her er ord som begynner med en konsonantklase, i et slikt tilfelle er det bare den første delen av den sammensatte vokalen som trenger å bli flyttet, eks. er เกลือ som må kodes som กเลือ. (เ etter ก og ือ etter ล.)

Det vanskeligste er gjerne når tonemerker legges til et ord, ettersom disse skrives over den første konsonanten i et ord, men er det aller siste et ord sorteres etter. Disse legges derfor til helt til slutt i et et etter, etter en bindestrek. Ordtrioen เสือ, เสื่อ, เสื้อ skal derfor sorteres på følgende måte (vi husker fra tidligere at den sammensatte vokalen skal settes etter konsonanten: สเือ, สเือ-่ สเือ-้.