Kāda ir atšķirība starp ASCII un Unicode tekstu?

Kāda ir atšķirība starp ASCII un Unicode tekstu?

ASCII un Unicode abi ir standarti, kas attiecas uz teksta digitālo attēlojumu, īpaši rakstzīmēm, kas veido tekstu. Tomēr abi standarti ir ievērojami atšķirīgi, un daudzas īpašības atspoguļo to izveidošanas secību.





Amerika pret Visumu

Amerikas standarta informācijas apmaiņas standarta kodekss (ASCII), pārsteidzoši, ir paredzēts amerikāņu auditorijai, rakstot angļu alfabētā. Tajā aplūkoti neakcentēti burti, piemēram, A – Z un a – z, kā arī neliels skaits pieturzīmju un vadības rakstzīmju.





Jo īpaši nav iespējams attēlot aizdevuma vārdus, kas pieņemti no citām valodām, piemēram, kafija ASCII, tos anglikozējot, aizstājot akcentētas rakstzīmes (piemēram, kafejnīca ). Lokalizēti ASCII paplašinājumi tika izstrādāti, lai apmierinātu dažādu valodu vajadzības, taču šie centieni savietojamību padarīja neērtu un acīmredzami paplašināja ASCII iespējas.





Turpretī universālais kodētais rakstzīmju kopums (Unicode) atrodas ambīciju skalas pretējā galā. Unicode mēģina apmierināt pēc iespējas vairāk pasaules rakstīšanas sistēmu, ciktāl tas aptver senās valodas un ikviena iecienīto izteiksmīgo simbolu kopu, emocijzīmes.

Rakstzīmju kopa vai rakstzīmju kodējums?

Vienkārši izsakoties, rakstzīmju kopa ir rakstzīmju atlase (piemēram, A – Z), bet rakstzīmju kodējums ir kartēšana starp rakstzīmju kopu un vērtību, ko var attēlot digitāli (piemēram, A = 1, B = 2).



ASCII standarts faktiski ir gan: tas nosaka rakstzīmju kopu, ko tas attēlo, gan metodi katras rakstzīmes kartēšanai ar skaitlisku vērtību.

Turpretī vārds Unicode tiek lietots vairākos dažādos kontekstos, lai apzīmētu dažādas lietas. To var uzskatīt par visaptverošu terminu, piemēram, ASCII, lai atsauktos uz rakstzīmju kopu un vairākiem kodējumiem. Bet, tā kā ir vairāki kodējumi, terminu Unicode bieži lieto, lai atsauktos uz kopējo rakstzīmju kopu, nevis uz to kartēšanu.





Izmērs

Savas darbības jomas dēļ Unicode attēlo daudz vairāk rakstzīmju nekā ASCII. Standarta ASCII izmanto 7 bitu diapazonu, lai kodētu 128 atšķirīgus rakstzīmes . Unicode, savukārt, ir tik liels, ka mums ir jāizmanto atšķirīga terminoloģija, lai tikai par to runātu!

Unicode nodrošina adresējamu 1 111 998 adreses koda punkti. Koda punkts ir aptuveni analoģisks personāžam rezervētai vietai, taču situācija ir daudz sarežģītāka nekā tad, kad sākat iedziļināties detaļās!





Noderīgāks salīdzinājums ir tas, cik skriptu (vai rakstīšanas sistēmu) pašlaik tiek atbalstīts. Protams, ASCII apstrādā tikai angļu alfabētu, būtībā latīņu vai romiešu rakstību. 2020. gadā ražotā Unicode versija iet daudz tālāk: tā ietver atbalstu kopumā 154 skriptiem.

Uzglabāšana

ASCII 7 bitu diapazons nozīmē, ka katra rakstzīme tiek saglabāta vienā 8 bitu baitā; rezerves uzgalis netiek izmantots standarta ASCII. Tas padara izmēru aprēķinus par mazsvarīgiem: teksta garums rakstzīmēs ir faila lielums baitos.

To var apstiprināt ar šādu bash komandu secību. Pirmkārt, mēs izveidojam failu, kurā ir 12 teksta burti:

Wi -Fi pieslēgts, bet nav interneta Windows 10
$ echo -n 'Hello, world' > foo

Lai pārbaudītu, vai teksts ir ASCII kodējumā, mēs varam izmantot failu komanda:

$ file foo
foo: ASCII text, with no line terminators

Visbeidzot, lai iegūtu precīzu failu ieņemto baitu skaitu, mēs izmantojam Valsts komanda:

$ stat -f%z foo
12

Tā kā Unicode standarts attiecas uz daudz lielāku rakstzīmju klāstu, Unicode fails, protams, aizņem vairāk vietas. Cik daudz, tieši atkarīgs no kodējuma.

Atkārtojot to pašu komandu kopu no iepriekš, izmantojot rakstzīmi, kuru nevar attēlot ASCII, tiek iegūts sekojošais:

$ echo -n '€' > foo
$ file foo
foo: UTF-8 Unicode text, with no line terminators
$ stat -f%z foo
3

Šī viena rakstzīme Unicode failā aizņem 3 baitus. Ņemiet vērā, ka bash automātiski izveidoja UTF-8 failu, jo ASCII failā nevar saglabāt izvēlēto rakstzīmi (€). UTF-8 ir visizplatītākais Unicode rakstzīmju kodējums; UTF-16 un UTF-32 ir divi alternatīvi kodējumi, taču tos izmanto daudz mazāk.

UTF-8 ir mainīga platuma kodējums, kas nozīmē, ka tas izmanto dažādus krātuves apjomus dažādiem koda punktiem. Katrs koda punkts aizņems no viena līdz četriem baitiem ar nolūku, lai biežāk sastopamās rakstzīmes prasītu mazāk vietas, nodrošinot iebūvētas saspiešanas veidu. Trūkums ir tāds, ka noteiktas teksta daļas garuma vai lieluma prasību noteikšana kļūst daudz sarežģītāka.

ASCII ir Unicode, bet Unicode nav ASCII

Lai nodrošinātu savietojamību atpakaļ, pirmie 128 Unicode koda punkti ir līdzvērtīgas ASCII rakstzīmes. Tā kā UTF-8 kodē visas šīs rakstzīmes ar vienu baitu, jebkurš ASCII teksts ir arī UTF-8 teksts. Unicode ir ASCII superset.

Tomēr, kā parādīts iepriekš, daudzus Unicode failus nevar izmantot ASCII kontekstā. Jebkura rakstzīme, kas ir ārpus robežām, tiks parādīta negaidītā veidā, bieži ar aizvietotām rakstzīmēm, kas pilnīgi atšķiras no paredzētajām.

Mūsdienu lietošana

Lielākajā daļā gadījumu ASCII lielākoties tiek uzskatīts par mantotu standartu. Pat situācijās, kad tiek atbalstīts tikai latīņu raksts-piemēram, ja nav nepieciešams pilnībā atbalstīt Unicode sarežģītību-parasti ir ērtāk izmantot UTF-8 un izmantot tā ASCII saderības priekšrocības.

kā pārvietot lietotnes uz sd karti nugā

Jo īpaši tīmekļa lapas jāsaglabā un jāpārraida, izmantojot UTF-8, kas ir HTML5 noklusējums. Tas ir pretstatā agrākajam tīmeklim, kas pēc noklusējuma nodarbojās ar ASCII, pirms to aizstāja latīņu 1.

Mainīgs standarts

Pēdējā ASCII pārskatīšana notika 1986. gadā.

Turpretī Unicode turpina atjaunināt katru gadu. Regulāri tiek pievienoti jauni skripti, rakstzīmes un jo īpaši jaunas emocijzīmes. Ja tiek piešķirta tikai neliela daļa no tiem, iespējams, ka pilnā rakstzīmju kopa pārskatāmā nākotnē pieaugs.

Saistīts: 100 populārākās emocijzīmes

ASCII pret unikodu

ASCII kalpoja savam mērķim daudzus gadu desmitus, bet tagad Unicode to faktiski ir aizstājis visiem praktiskiem mērķiem, izņemot mantotās sistēmas. Unicode ir lielāks un līdz ar to izteiksmīgāks. Tas ir pasaules mēroga sadarbības darbs un piedāvā daudz lielāku elastību, kaut arī uz zināmas sarežģītības rēķina.

Kopīgot Kopīgot Čivināt E -pasts Kas ir ASCII teksts un kā to izmantot?

ASCII teksts šķiet noslēpumains, taču tam ir daudz lietojumu internetā.

Lasīt Tālāk
Saistītās tēmas
  • Izskaidrota tehnoloģija
  • Emocijas
  • Žargons
  • Tīmekļa kultūra
  • Unikods
Par autoru Bobijs Džeks(58 raksti publicēti)

Bobijs ir tehnoloģiju entuziasts, kurš gandrīz divus gadu desmitus strādāja par programmatūras izstrādātāju. Viņš aizraujas ar spēlēm, strādā par atsauksmju redaktoru žurnālā Switch Player un ir iedziļinājies visos tiešsaistes publicēšanas un tīmekļa izstrādes aspektos.

Vairāk no Bobija Džeka

Abonējiet mūsu biļetenu

Pievienojieties mūsu informatīvajam izdevumam, lai iegūtu tehniskus padomus, pārskatus, bezmaksas e -grāmatas un ekskluzīvus piedāvājumus!

Noklikšķiniet šeit, lai abonētu