Perché i caratteri inglesi hanno bisogno di meno byte per rappresentarli rispetto ai caratteri in altri alfabeti?

Video: Perché i caratteri inglesi hanno bisogno di meno byte per rappresentarli rispetto ai caratteri in altri alfabeti?

Video: Come masterizzare facilmente con CdBurnerXP - YouTube 2024, Aprile

2024 Autore: Geoffrey Carr | [email protected]. Ultima modifica: 2023-12-17 10:55

Mentre la maggior parte di noi probabilmente non ha mai smesso di pensarci, i caratteri alfabetici non hanno tutte le stesse dimensioni nel numero di byte necessari per rappresentarli. Ma perché è così? Il post di Q & A di SuperUser di oggi ha le risposte alla domanda di un lettore curioso.

La sessione di domande e risposte di oggi ci viene fornita per gentile concessione di SuperUser, una suddivisione di Stack Exchange, un raggruppamento di domande e risposte basato sulla comunità.

Schermata del grafico ASCII parziale per gentile concessione di Wikipedia.

La domanda

Il lettore SuperUser khajvah vuole sapere perché diversi alfabeti occupano diverse quantità di spazio su disco quando vengono salvati:


When I put ‘a’ in a text file and save it, it makes it 2 bytes in size. But when I put a character like ‘ա’ (a letter from the Armenian alphabet) in, it makes it 3 bytes in size.
What is the difference between alphabets on a computer? Why does English take up less space when saved?

Le lettere sono lettere, giusto? Forse no! Qual è la risposta a questo mistero alfabetico?

La risposta

Collaboratori SuperUser Doktoro Reichard e ernie hanno la risposta per noi. Primo, Doktoro Reichard:


One of the first encoding schemes to be developed for use in mainstream computers is the ASCII (American Standard Code for Information Interchange) standard. It was developed in the 1960s in the United States.







The English alphabet uses part of the Latin alphabet (for instance, there are few accented words in English). There are 26 individual letters in that alphabet, not considering case. And there would also have to exist the individual numbers and punctuation marks in any scheme that pretends to encode the English alphabet.
The 1960s was also a time when computers did not have the amount of memory or disk space that we have now. ASCII was developed to be a standard representation of a functional alphabet across all American computers. At the time, the decision to make every ASCII character 8 bits (1 byte) long was made due to technical details of the time (the Wikipedia article mentions the fact that perforated tape held 8 bits in a position at a time). In fact, the original ASCII scheme can be transmitted using 7 bits, and the eighth could be used for parity checks. Later developments expanded the original ASCII scheme to include several accented, mathematical, and terminal characters.







With the recent increase of computer usage across the world, more and more people from different languages had access to a computer. That meant that, for each language, new encoding schemes had to be developed, independently from other schemes, which would conflict if read from different language terminals.
Unicode came into being as a solution to the existence of different terminals by merging all possible meaningful characters into a single abstract character set.
UTF-8 is one way to encode the Unicode character set. It is a variable-width encoding (i.e. different characters can have different sizes) and it was designed for backwards compatibility with the former ASCII scheme. As such, the ASCII character set will remain one byte in size whilst any other characters are two or more bytes in size. UTF-16 is another way to encode the Unicode character set. In comparison to UTF-8, characters are encoded as either a set of one or two 16-bit code units.
As stated in other comments, the ‘a’ character occupies a single byte while ‘ա’ occupies two bytes, denoting a UTF-8 encoding. The extra byte in the original question was due to the existence of a newline character at the end.

Seguito dalla risposta di ernie:


1 byte is 8 bits, and can thus represent up to 256 (2^8) different values.
For languages that require more possibilities than this, a simple 1 to 1 mapping can not be maintained, so more data is needed to store a character.
Note that generally, most encodings use the first 7 bits (128 values) for ASCII characters. That leaves the 8th bit, or 128 more values for more characters. Add in accented characters, Asian languages, Cyrillic, etc. and you can easily see why 1 byte is not sufficient for holding all characters.

Hai qualcosa da aggiungere alla spiegazione? Audio disattivato nei commenti. Vuoi leggere più risposte dagli altri utenti di Stack Exchange esperti di tecnologia? Controlla la discussione completa qui.

Consigliato:

Perché i dischi rigidi Mac non hanno bisogno di deframmentare

Su Windows, i dischi rigidi tradizionali (ma non le unità a stato solido) in genere richiedono la deframmentazione, un processo che può richiedere parecchio tempo. Su macOS (e Linux), non devi assolutamente preoccupartene. Perché è questo, e cos'è la deframmentazione, comunque? Diamo un'occhiata.

Le partizioni GPT hanno meno probabilità di essere danneggiate rispetto a quelle basate su MBR?

Ci sono alcune cose frustranti come i problemi con il disco rigido del tuo computer, ma c'è uno schema di partizionamento che funziona meglio di uno basato su MBR? Il post di Q & A di SuperUser di oggi ha la risposta alla domanda di un lettore curioso.

Perché non hai mai bisogno di mettere Apple TV (o altri dispositivi moderni) per dormire

Qui ci sono un sacco di domande su How-To Geek sul consumo di energia e sul fatto che tu debba o meno mettere i tuoi dispositivi a dormire o scollegarli. Siamo qui per dirti sicuramente: no, no non dovresti. Poco convinta? Continuare a leggere.

Spiegazione dei tipi MIME: Perché Linux e Mac OS X non hanno bisogno di estensioni di file

Venendo da Windows, le estensioni di file su Linux e Mac OS X possono sembrare un po 'strane. Il sistema operativo sembra sapere quali sono i file senza fare affidamento all'estensione del file - lo fa usando i tipi MIME.

Perché i computer portatili hanno bisogno di ventole di sistema ma i tablet non lo fanno?

Un'ora dopo che ti sei sistemato con il tuo tablet, occupato a giocare, è ancora silenzioso come un mouse, ma la maggior parte dei laptop ti farebbe serenare con il ronzio di un fan del sistema. Perché le tavolette possono rinunciare a una ventola di raffreddamento?

Perché i caratteri inglesi hanno bisogno di meno byte per rappresentarli rispetto ai caratteri in altri alfabeti?

Sommario:

Video: Perché i caratteri inglesi hanno bisogno di meno byte per rappresentarli rispetto ai caratteri in altri alfabeti?

La domanda

La risposta

Consigliato:

Perché i dischi rigidi Mac non hanno bisogno di deframmentare

Le partizioni GPT hanno meno probabilità di essere danneggiate rispetto a quelle basate su MBR?

Perché non hai mai bisogno di mettere Apple TV (o altri dispositivi moderni) per dormire

Spiegazione dei tipi MIME: Perché Linux e Mac OS X non hanno bisogno di estensioni di file

Perché i computer portatili hanno bisogno di ventole di sistema ma i tablet non lo fanno?

Correzione per cartelle speciali Ripristino all'icona di cartella predefinita in Windows Vista

Mostra due fusi orari nel tuo calendario di Outlook 2007

Come ascoltare Audible Audiolibri su Sonos

Crea icone Shutdown / Restart / Lock in Windows 7 o Vista

Suggerimento rapido: sposta le cartelle in Outlook

Come attivare i promemoria di ora di andare a dormire, il risveglio normale e il rilevamento del sonno in iOS 10

Come sbloccare il dispositivo iOS 10 con un solo clic (come in iOS 9)

Dovresti prestare attenzione a questi produttori Android se ti interessa degli aggiornamenti

Come modificare le tue immagini con l'applicazione Foto del tuo Mac

Come risolvere saltando e ritardando in VLC Riproduzione di file video ad alta definizione

Utilizza Microsoft Live SkyDrive per 25 GB di spazio di archiviazione (serie di archiviazione online)

How-To Geek su Lifehacker: smascherare i miti di Windows Performance Tweaking

Prevenire il disastro con il controllo dell'account utente

Come eseguire il backup del Mac su Synology NAS

Utilizzare i report delle attività dell'utente per determinare i controlli parentali da utilizzare