Latijntijnse hoofdletter S met een cedille

Status
Niet open voor verdere reacties.

majansen

Gebruiker
Lid geworden
13 dec 2002
Berichten
158
Hallo,

Ik ben benieuwd naar het volgende. Ik gebruik bepaalde software.
Als er in de software een achternaam wordt ingebracht van b.v. Şahin
en men slaat dit op gaat alles goed. Maar als men gaat zoeken naar
deze naam dan geeft de software alleen de namen met een gewone
S weer en niet de naam met Latijnse hoofdletter S met een cedille.
Ik heb inmiddels begrepen dat deze letter buiten het asci-tabel valt.
Mijn vraag is eigenlijk kan een programmeur er voor zorgen dat
wel de juiste naam wordt gevonden in dit geval Şahin als er naar wordt gezocht?
 
ja
Oplossing 1:
Synoniemen lijst.

Oplossing 2:
van utf 8 naar utf 16 gaan werkdn
 
Laatst bewerkt:
Beste Majansen

Hier een verderde uitbereiding van de oplossing

Oplossing 1:
Synomiemen lijst :

Een synoniem van een bepaald woord in een taal is een ander woord in dezelfde taal met min of meer dezelfde betekenis. Dit verschijnsel wordt synonymie genoemd.

Voorbeelden van (gedeeltelijke) synoniemen in het Nederlands zijn:

portemonnee - beurs
auto - wagen
douche - stortbad
duimspijker - punaise
danken - wijten (Het gebruik van de uitdrukking "te danken hebben aan" in negatieve zin is omstreden.)

Een synoniemen lijst(opsomming van tekens die ongeveer gelijk aan elkaar zijn). Hier mee kan een tekens koppelen aan elkaar. Dit houd in in uw voorbeeld dat we de S gaan koppelen aan de Ş. De hoofdoel van een synoniemen lijst is om zoek resultaten te koppelen.

Voordeel : elke word / worden combinatie kan gevonden worden. Ook als er iets op lijkt
Nadeel : hoe meer synoniemen er zijn hoe trager het systeem kan worden. Pas op dat er niet te veel synoniemen komen waardoor een zoekresultaat accuraat blijft(geen verkeerde resultaten).

Oplossing 2:

Basis begrip : UTF -8 is een opslaag methode om gegeven bits om te slaan note: special tekens worden in utf naar gezet
_____
Samenvattend worden de Unicodetekens in groepen bits ingedeeld, die worden verdeeld over de lage bits van de UTF-8-bytes.
Tekens 0-127, de ASCII-tekens, kunnen direct worden gecodeerd in een byte met het hoogste bit 0. Voor andere tekens zijn tot 4 bytes nodig. Alle bytes voor zulke tekens hebben het hoogste bit 1, zodat verwarring met de ASCII-tekens wordt voorkomen.
--------

Kort gezegt het komt neer de manier van opslag verander kan worden naar een uitgebreider versie utf 16 waarmee het character gezegt worden,

Je verander de opslag van data

Voordeel : alle characters kunnen opgeslagen worden
Nadeel: De programmeur dient kennis te hebben van de programma's.Daarbuiten kan het soms erg lang duren om het over te zetten. Je geeft al aan dat je werkt met meer programma's. Is dit bijvoorbeeld online dan is het overzetten weer makkelijker.
 
Laatst bewerkt:
Status
Niet open voor verdere reacties.
Terug
Bovenaan Onderaan