Jaký textový soubor vypadá. Formáty textových souborů

S textovými soubory (dokumenty) čelíme téměř denně. V této otázce by však nemělo být zmatené rozšíření textový soubor A textový datový formát, to jsou různé věci. Pokusme se zjistit, jaké soubory tohoto typu představují a co jsou.

Rozšíření textového souboru: Co je to?

Začněme se skutečností, že zpravidla většina souborů tohoto typu má rozšíření ve formě tří litrů po separátoru (bod). Nejjednodušší a nejběžnějším typem je soubory s příponou. TXT OTEVŘENÝ VE TAKÉ systémy Windows. S pomocí standardního Poznámkový blok.

Navzdory obecně přijatých pravidlech však rozšíření souborů textové dokumenty Může obsahovat ne tři seznamy, ale více (jejich počet může dosáhnout dvanácti, ale ne více), například e-knižovat soubory .djvu. Kromě toho může prodloužení představovat čísla.

Co nám dává zvážit klasifikaci textového souboru (dokumentu) z hlediska jejich identifikace? A skutečnost, že jeden pohled vám umožní okamžitě rozhodnout důležitá otázka: Jaké rozšíření má textové soubory, to je také program spojený s ním otevřít nebo upravit. Ihned, v mnoha případech je téměř vždy možné určit počáteční aplikaci, ve které byl vytvořen takový soubor.

Neměli byste však zapomenout, že se dnes můžete setkat velké číslo Soubory se stejnými rozšířeními, ale vytvořeny v jiných aplikacích nebo spojených s různými programy. Zdá se, že obvyklý soubor s rozšířením.docem (.docx) zpočátku odpovídá textový editor Microsoft Word.. Ale koneckonců je možné jej otevřít nebo udržovat v tomto formuláři v druhé i na počítačích "Apple". To lze také přičítat, a tak mluvit, smíšené soubory formátové soubory .pdf, obsahující nejen text, ale také grafiku. Ale po tom všem I. dokumenty slovo. Může obsahovat vložené snímky.

Toto je indikátor, který rozšíření textového souboru označuje univerzálnost samotného formátu, což je nejvíce "čitelné", bez ohledu na použitý operační systém. Totéž platí pro libovolný typ.

Typy rozšíření souborů: text

Obecně je dnes vědom obrovského čísla. formáty textu A jejich rozšíření, které pravděpodobně prakticky žádný odborník neprovede, aby vypočítali plnou částku.

Ano, samozřejmě, všestrannost těchto dokumentů není pochyb o tom, zejména pokud používá nejjednodušší, ale někdy problém může sestávat, že ne každý kódování podporuje konkrétní systém nebo program. Proto se na obrazovce namísto obvyklých písmen zobrazí sada znaků.

Pokud jde o odrůdy textových souborů, všichni nejsou uvedeny. Nejběžnější jsou následující: .txt, .doc, .tex, .text, .pdf, .log, .pt, .ttf, .r, .sub, Tento seznam může pokračovat do nekonečna.

Co je nejzajímavější, mnoho souborů tohoto typu v systému dostane jinou roli. Například, kromě pravidelného podtitulového souboru.SUB pro prohlížení při otevření videa může být pravidelný textový dokument .txt a v tomto ohledu mnoho formátů je zaměnitelné.

Upozornění, dokonce spustitelné soubory může mít text jako obsah. Nejjednodušší příklad - FILE.BAT vytvořený v obvyklém "Poznámkový blok" a obsahující text ve formě sady příkazů. Při spuštění dojde k provedení příkazů a k editaci "Otevřít s ..." se používá k úpravě, pokud je zpočátku ve srovnání s tímto procesem.

Taková situace je pozorována u dokumentů pomocí označování nebo programovacích jazyků, say, files.html, .htm, .xml atd. Dokonce i webové stránky mohou být otevřeny v mnoha editorech původně jako textové soubory obsahující prvky třetích stran.

Změnit rozšíření textových souborů

Pokud jde o změnu expanze, někdy může být změněno, například .txt v.doc a zpět. Slovo editor otevře libovolný typ. Totéž platí pro pár .txt - .bat při otevírání v "Poznámkový blok". Ale v jiných případech je lepší nevytvořit takové manipulace, bude to prostě povede k ničemu a přejmenovaný soubor nebude moci otevřít. Změna formátu bude muset být proveden pomocí speciálního softwaru konvertoru.

Místo předchozí školy

Jak již pochopitelné, přípona textového souboru může mít sadu variací, v závislosti na tom, který programový dokument vytvoří. Ale stejně jako v jiných případech, podle prodloužení, je téměř vždy možné určit související žádost zpočátku, v extrémním případě, otevřít jakýkoliv jiný program podporující práci s takovým typem dat, i když původní aplikace chybí počítač. A jak již pravděpodobně je zřejmé, že textové soubory jsou ve skutečnosti v počítačovém světě nejběžnější a univerzální, bez ohledu na použité softwarové balíčky a operační systémy.

Textové soubory se skládají z charakterových proměnných řetězců. Každý řádek je doplněn speciální kombinací, nazvaný "Konec řetězce". Kombinace "Konec řetězce" se skládá ze dvou znaků: "Překlad vozíku" (ASCII kód \u200b\u200b# 13) a "Přenos řádků" (# 10). Textový soubor je doplněn symbolem "Konec souboru" (# 26).

Popis textového souboru je proveden prohlášením textu textu:

var fime_named: text;

Čtení z textového souboru se provádí operátory čtení a readln. Chcete-li si přečíst data ze souboru, zadáte název proměnné souboru jako první parametr, a pak proměnné jsou uvedeny přes čárku, ke které jsou data čtena ze souboru. V textovém souboru jsou data uložena v formuláři řetězce. Pokud však datový prvek může být transformován do čísla, tato konverze se automaticky provádí při zadávání číselných proměnných. Prvky číselných dat v řetězcích textového souboru jsou odděleny mezery nebo záložkami symboly. Pokud je řetězec souboru u konce, a skládající se z číselných nebo znakových proměnných, vstupní seznam v příkazu pro čtení nevyčerpal, vstup pokračuje z následujícího řádku. Při zadávání dat z textového souboru do symbolických proměnných nejsou datové prvky odděleny. Pokud je řetězec v seznamu dat po číselné proměnné, mezera, který následuje po číselné hodnotě v souboru, přečte do řetězce (je to pravda a při čtení do znakové proměnné).

Rozdíl mezi operátory čtení a readln při čtení z textových souborů je, že příkaz Readln, umístění hodnoty v nejnovější proměnné vstupu vstupu, přejde na začátek dalšího řádku, aniž by čtení dat vlevo v řetězci. Na druhé straně zůstává obsluha čtení připraven číst data z následující pozice. aktuální řádek. Předpokládejme, že v textovém souboru F existují dva řádky:

1 - 2 4

V tomto případě dva operátory čtení (F, M); Číst (f, n); Jsme umístěni do celočíselných proměnných M a N, resp. Hodnoty 1 a -2 a dva operátory čtení (F, M); Readln (f, n); Zvažte hodnoty 1 a 4.

Příklad. V textovém souboru f.txt přes prostor a zaznamenaná celá čísla. Chcete-li přepsat soubor F1.txt z souboru F.TXT všechna čísla, s výjimkou maxima (předpokládá se, že může být několik).

vAR F, F1: Text; A, Max: Longint; Vlajka: Boolean; Začněte přiřadit (f, "f.txt"); Reset (f); Zatímco ne EOF (F) začíná číst (F, A); Pokud A\u003e Max pak MAX: \u003d A; konec; Přiřadit (F1, "F1.txt"); Přepsat (F1); Reset (f); Zatímco ne EOF (F) začíná číst (F, A); POKUD.<>max pak Writeln (F1, A); konec; Zavřít (f); Zavřít (f1); konec.

V příkladu je soubor F.txt čten dvakrát. Poprvé určete maximální počet, podruhé - číst čísla a napsat je do druhého souboru. Tento algoritmus se používá, pokud jsou maximální čísla v souboru několik.

Funkce textových souborů je, že se jedná o sekvenční přístupové soubory: Nelze číst žádný prvek textového souboru bez čtení všech předchozích položek. Podobně nemůžete nahrávat informace v textovém souboru náhodně, je možné jej napsat postupně.

Textové soubory

Textové soubory jsou spojeny s proměnnými souborem patřícím se standardním typu textu. Textové soubory jsou určeny pro ukládání textu informace. Je v tomto typu souborů, které jsou uloženy zdrojové texty programů. Komponenty textových souborů mohou mít proměnná délkaCo významně ovlivňuje povahu práce s nimi.

Textový soubor je interpretován v Turbo Pascal jako sada řádků s proměnnými délkami. Přístup k každému řádku je možné pouze v sérii, počínaje prvními. Při vytváření textového souboru na konci každého záznamu (řetězec), speciální funkce ELN (Endline je konec řetězce) a na konci celého souboru - znaménko EOF (konec souboru je konec souboru). Tyto funkce lze testovat stejným názvem logických funkcí (viz níže). Při generování textových souborů se používají následující systémové dohody:

Eoln- kódové kódy ASCII # 13 (CR) a # 10 (LF);

EOF - kód # 26 Standard ASCII.

Pro přístup k záznamům, čtení, readln, psaní, writeln postupy. Liší se v možnosti přístupu s proměnlivým počtem skutečných parametrů, které mohou používat znaky, struny a čísla. První parametr v některém z následujících postupů může čelit proměnné souboru. V tomto případě přístup k souboru disku nebo logického zařízení spojeného s postupem přiřazení proměnného. Pokud není zadána proměnná souboru, dojde k výstupu standardních vstupních souborů.

Postup Číst.

Poskytuje vstup znaků, řádků a čísel. Formát odvolání:

Číst (<ф.п.>,<сп.ввода>) nebo čtení (<сп.ввода>)

Tady<сп.ввода> - Vstupní seznam: sekvence od jedné nebo více proměnných typu Char, řetězec, stejně jako celý nebo reálný typ.

Při zadávání proměnných typu Char, přečtěte si jeden znak ze souboru a přiřazení hodnoty proměnné. Pokud před přečtením souboru dosáhl ukazatel souboru konec dalšího řádku, pak čtenáře bude symbol CR (ASCII kód \u200b\u200b# 13), a pokud je dosaženo konce souboru, pak symbol EOF (kód # 26) ). Když zadáte klávesnici, symbol ČR je zadán, když stisknete klávesu Enter a symbol EOF - při současném stisknutí kláves CTRL a Z současně.

Při zadávání proměnných typového řetězce, počet studovaných procedur a umístěn v řetězci znaků se rovná maximální délce řetězce, pokud se Symboly ČR nebo EOF nesetkaly dříve. V tomto případě nejsou v řetězci umístěny znaky ČR a EOF. Pokud je počet znaků ve vstupním datovém toku větší než maximální délka řetězce, "Nepotřebné" znaky na konec řádku jsou vyřazeny a nové odvolání ke čtení vrátí prázdný řetězec. Postup čtení tak není schopen přečíst posloupnost řetězců: první řádek bude číst normálně a všechny následné se budou vyprázdnit. Chcete-li zadat sekvenci řetězců, musíte použít proceduru Readln (viz níže).

Při zadávání číselných proměnných se přečtený postup nejprve zvýrazní podřetězec ve vstupním proudu podle následujícího pravidla: Všechny olověné mezery, symboly záložky a koncové značky Eolnových řádků jsou přeskočeny; Po přidělení znaku prvního významu, naopak, některý z uvedených znaků nebo symbol EOF slouží jako znamení konce podřetězce. Substituce vybraná tímto způsobem je pak považována za symbolickou reprezentaci numerické konstanty odpovídajícího typu a je převedena na interní pohleda získaná hodnota je přiřazena proměnné. Pokud byl v substituci přerušen požadovaný formát číselné reprezentace konstanty, dojde k chybě vstupu-výstupu. Pokud se Symbol EOF setkal při průchodu předních prostor, proměnná přijímá hodnotu 0. Všimněte si, že hexadecimální konstanty nejsou uvedeny v turbo pascalu.

Při použití postupu čtení ve vztahu k standardní soubor Vstup, tj. Při zadávání klávesnice jsou znakové řádky zapamatovány ve vyrovnávací paměti, která je přenášena pouze po kliknutí na klávesu Enter. To vám umožní upravit data při jejich zadávání. Pro úpravy se používají následující klávesy:

  • Backspace, Ctrl-H, přenos kurzoru doleva - smaže symbol vlevo od kurzoru;
  • přenos kurzoru doprava - obnovuje symbol předchozího vstupního řetězce;
  • Ctrl-Z Enter - doplňuje záznam čtení; Zbývající "zbytečné" parametry znaků mají hodnotu CHR (26), řádky jsou vráceny prázdné a číselné proměnné zůstanou nezměněny.

Maximální délka Vstupní vyrovnávací paměť při práci s klávesnicí je 127 znaků. Zadání klávesnice podle postupu čtení je doprovázeno opakováním echo zadaných znaků na obrazovce PC.

Postup čtení je dokonale přizpůsoben pro zadávání čísel. Při kontaktu se zavedením jiného nebo reálného čísla, postup "retells" značky konce řetězce, tj. Ve skutečnosti je to celý soubor považován za jeden dlouhý řetězec obsahující textovou reprezentaci čísel. V kombinaci s koncem kontroly souboru umožňuje čtenář funkce EOF organizovat jednoduché datová pole UBD, například následujícím způsobem:

cONST.

N \u003d 1000; (Maximální délka vstupu)

f: Text;

m: řada skutečných;

I: celé číslo;

Začít.

přiřadit (F, "Prog.dat");

reset (£); I: \u003d 1;

i když není EOF (f) a (i<= N) do

Začít.

číst (f, m [i]);

(I)

konec;

zavřít (f);

.......

konec.

Postup Readln.

Poskytuje vstup znaků, řádků a čísel. Tento postup je totožný s přečtením procedury, s výjimkou, že po přečtení poslední proměnné je vynechána zbývající část řádku na značku Eoln, takže další přístup k Readln nebo číst začíná od prvního symbolu nového řádku. Tento postup lze navíc volat bez parametru. (Viz read postup), který projde pro průkaz všech znaků aktuálního řádku až na ELN.

Pokud se postup použije ke čtení z klávesnice, zobrazí se stisknutím klávesy Enter na obrazovce, protože sekvence CR + LF a kurzor bude umístěn v horní části dalšího řádku, zatímco v postupu eder, klávesa Enter je Klíč CR a kurzor je umístěn na začátku aktuálních řádků.

Postup Psát si.

Poskytuje informační výstup do textového souboru nebo jej vysílat do logického zařízení. Formát odvolání:

Psát si (<ф.п.>, <сп.вывода>) nebo psát (<сп.вывода>)

Tady<сп.вывода> - Seznam výstupu: sekvence z jednoho nebo více výrazů typu char, řetězec, boolean, také libovolného celého čísla nebo reálného typu.

Proměnná souboru<ф.п.>Pokud je zadán, musí být dříve popsán jako proměnná typu textu a je spojena s názvem souboru nebo logickým zařízením přiřazeného procedury. Pokud je proměnná souboru nepřítomná, je implikována na výstup do standardního výstupního souboru, který je obvykle spojen s obrazovkou PC.

Jakýkoliv prvek výstupního seznamu může mít formulář

Outexpr [: Minwidth [: dekeje]]

Zde EUNEXPR je výstupní výraz;

Minwidth, dekorace - výrazy typu slov (čtvercové závorky znamenají absenci parametrů uzavřených v nich).

Minwidth Suproameter, pokud je přítomen, označuje minimální šířku pole, ve které bude zaznamenána symbolická reprezentace hodnoty OutexPr. Pokud má reprezentace symbolu menší délku než minwidth, bude doplněna na levé prostory, pokud je větší délka, pak je hodnota Minwidth pododstavec ignorován a zobrazí se požadovaný počet znaků.

Nections Surparameter nastaví množství desetinných znaků v zlomkové části reálného čísla. Lze jej použít pouze ve spojení s minwidth a pouze s ohledem na přerostlou vyjádření jednoho ze skutečných typů.

Pokud není zadána šířka výstupního pole, odpovídající parametr se zobrazí po předchozí bez jakéhokoliv oddělení.

Symboly a čáry jsou přenášeny do výstupního souboru beze změny, ale jsou dodávány s předními mezery, pokud je nastavena šířka výstupního pole a tato šířka je pro výstupnější.

Při zobrazení logických výrazů se zobrazí v závislosti na jejich hodnotě, true nebo falešné řádky. (Zadávání logických konstant pro čtení nebo readln postupy nejsou k dispozici).

Reálná čísla jsou výstupy v exponenciálním formátu, pokud není zadán pododstavec dekupace, jinak je vybrán formát reprezentace čísla s pevným bodem. Exponenciální formát představuje skutečné číslo ve formě

S #. ############## E * ####,

kde:

Prostor;

s gap pro pozitivní a znaménko "-" pro negativní čísla;

# desetinná číslice;

E symbol desetinné základny;

* Podepsat "+" nebo "-" v závislosti na znamení desetinného řádu čísla.

Pokud je podproametr Minwidth vynechán, je provedena výchozí hodnota (23). Pokud je minwidth menší než 10, předpokládá se, že se rovná 10.

Pokud je pododvětná dekupace nulová nulová, ani frakční část počtu, ani desetinná tečka není výstup. S negativní hodnotou odtoku je tento parametr ignorován a číslo se zobrazí v exponenciálním formátu s Minwidth. Pokud je hodnota odtoku vyšší než 18, hodnota je 18. Je třeba poznamenat, že při určování subpalencí deklarů bude reálné číslo vždy zobrazeno ve formátu s pevným bodem a požadovaným počtem znaků v zlomkové části, I když hodnota podproametru Minwidth nebude nedostatečná pro přizpůsobení celé číslo: v tomto případě hodnota Minwidt se automaticky zvyšuje.

Při zobrazení obrazovky v případě, kdy délka zobrazené posloupnosti znaků překročí šířku obrazovky nebo Windows vytvořená na něm, "Nepotřebné" symboly jsou přeneseny na další řetězec na obrazovce. Při vyplnění obrazovky nebo okna se její obsah posune jeden řádek.

Postup Writeln. Tento postup je plně identický s postupem zápisu s tím rozdílem, že výstupní řetězec znaků je ukončen CR a LF kódy. Když zavoláte writeln, můžete snížit parametr<сп.вывода>: V tomto případě je značka ELN vysílána do souboru, který při zobrazení obrazovky povede k překladu kurzoru "na začátku dalšího řádku.

Logická funkce ELN. Vrátí se true, pokud bude konec řetězce dosažen ve vstupním souboru. Formát odvolání:

Eoln.<ф.п.>

Pokud je parametr<ф.п.>

Existuje určitý rozdíl v rysech ELN a EOF s diskovými soubory a logickými zařízeními. Faktem je, že pro logické zařízení není možné předvídat, co bude výsledkem čtení dalšího symbolu. Proto při práci s logickým zařízením se funkce ELN vrátí true, pokud poslední čtení ze zařízení byla EOLN nebo EOF, zatímco při čtení z pravého disku se vrátí, pokud je příští znak čtení ELN nebo EOF. Podobný rozdíl je dodržen v FOF EOF: Pro logické zařízení true vrací, pokud byl poslední znak EOF, a při čtení z disku, pokud je následující znak čtení EOF. Jinými slovy, funkce testují odpovídající funkce pro logické zařízení po dalším čtení a pro soubor - před čtením.

Logická funkce Tokeoln.

Přeskočení všech mezer a záložek karty na konci řetězce Eoln nebo do prvního charakteristického symbolu a vrátí se true, pokud je zjištěn značka. Formát odvolání:

Pokackoln (<ф.п.>)

Pokud je parametr<ф.п.> Vynechána funkce kontroluje standardní vstupní soubor.

Logická funkce Tokeof.

Přesune všechny mezery, záložky a koncové značky řetězce ELN na konec souboru na konec souboru nebo před prvním znakem znaku a vrátí se true, pokud je zjištěn značka. Formát odvolání:

Sekeof (<ф.п.>)

Pokud je parametr<ф.п.> Vynechána funkce kontroluje standardní vstupní soubor.

V následujícím příkladu ilustrující práci s textovým souborem, celkový počet znaků v souboru se vypočítá a výsledek je rozdělen 40000 - tímto způsobem můžete odhadnout svazek rukopisu v tzv. Účetních a publikování listů:

f: Text;

s: řetězec;

CONST.

Součet: longint \u003d 0; (Zde bude počet znaků)

Začít.

Zápis (název souboru: "); (Požadavek ...)

Readln (y); (a zadejte název souboru.)

přiřadit (F, S);

Reset (f); (Otevřete soubor)

zatímco ne EOF (F) (Počet ...)

začít. (Množství. . .)

Readln (f, s); (symboly ...)

inc (součet, délka (délka)) (v souboru)

konec;

Zavřít (f); (Zavřít soubor)

Writeln ("objem \u003d", Sum / 4000: 6: 2, "UCH.ZD.L.")

konec.

Textový soubor lze zobrazit jako posloupnost znaků, rozdělených do řetězců o délce 0 až 256 znaků. Jedná se o soubory sériového přístupu. Strukturální jednotka textových souborů je řetězec. Data v takových souborech jsou uložena jako řetězec ASCIIOS a mohou být zpracovány libovolným textovým editorem. Každý řetězec je ukončen koncovým markerem. V praxi je takový marker sekvencí dvou znaků: překladem Rowchr (10) a návratu CarriageschR (13). Tyto dva znaky nastavují standardní kroky správy textových souborů.

Textové soubory jsou popsány v popisech proměnných:

FILE_NAME: TextFile;

Proměnná souboru je název proměnné, která se používá v kódu programu pracovat se souborem.

Otevření textového souboru

Před zapisováním dat do souboru nebo číst data ze souboru, musíte nejprve otevřít tento soubor. Otevření textového souboru pro zápis, čtení nebo nevýhodu se provádí pomocí různých postupů. Ale před jejich použití je třeba přidělit jméno ve všech případech souboru na magnetickém médiu, tj. Vloženo podle proměnné souboru Název souboru disku pomocí procedury Přiřazení.:

Přiřazení (proměnná souboru, název souboru),

Zde název souboru je libovolný výraz typu řetězce, která je založena na pravidlech pro definování názvů v operačním systému.

Například:

AssignFile (F, 'C: Student Primer.txt');

Postupy pro otevírání textových souborů

Odvolání na postup

Akt

Otevře se (vytvoří) nový soubor. Název souboru je předem určen v postupu přiřazení. Pokud byl soubor se stejným názvem na disku, pak je zničen.

Otevře existující soubor. Soubor je čten postupně. Pokud je tento postup aplikován na neexistující soubor, dojde k chybě I / O.

Otevře existující soubor pro dupress. Nahrávání se provádí na konci souboru.

V tabulce F-souboru proměnné.

Zpracování textových souborů

Textové soubory mají své specifika. Speciální rozšíření standardních procedur pro čtení (čtení) a záznamy (zápis) popsané níže mohou pracovat s neúplnými hodnotami typu. Jinými slovy, sekvence znaků se automaticky převede na hodnotu typu proměnné, která se používá v operacích souborů.

Zavolejte čtení (F, WW), kde WW-variabilní typeword zní od filefoldingu čísel, která je pak interpretována v čísle, jejichž hodnota bude přiřazena variable inc. V případě, namísto pořadí čísel, jakýkoli jiný znakový posloupnost, použití takového operátora vede k chybě provádění programu.

V názvu proměnné F-souboru Tabulka.v1, V2, ..., VN proměnné různých typů.

Odvolání na postup

Akt

Číst (f, v1 [, v2, ..., vn]);

Čte znaky v proměnných v1, v2, ..., vn z disku disku.

Readln (f, v1 [, v2, ..., vn]);

Číst.a navíc - čtení na konec linky až do konce a přechod k novému řádku

Readln.(F.) bez seznamu proměnných umožňuje přeskočit řádek do souboru a jít do nového řetězce.

Zápis (f, v1 [, v2, ..., vn]);

Zaznamenává hodnoty proměnných v1, v2, ..., vn do souboru na disku.

Writeln (f, v1 [, v2, ..., vn]);

Provádí stejné akce jako Psát si, poskytuje však záznam všech hodnot s povinným nastavením konce řetězce do souboru.

Writeln.(F.) bez seznamu proměnných . do souboru zapíše prázdný řetězec.

Textový soubor - Soubor počítače obsahující textová data. Textové soubory jsou proti binárnímu (binárnímu) souborům, které obsahují data, která nejsou vypočtena na interpretaci jako text (například soubory, které ukládají text v kódovaném nebo komprimovaném formuláři nebo uloženém non-text, a zvuk, obraz nebo jiná data ).

Výhody a nevýhody

Výhody:

  • Universality - textový soubor lze číst (jedním nebo jiným nebo jiným) na jakémkoli systému nebo operačním systému, zejména pokud mluvíme o jednobajtových kódování, jako je ASCII, což nepodléhá problému charakteristické pro jiné formáty souborů - rozdíl v Objednávka bajtů nebo délky stroje není důležitá. Slova na různých platformách.
  • Udržitelnost - každé slovo a znak v takovém souboru jsou soběstačné a pokud bajty poškození v takovém souboru, můžete obvykle obnovit data nebo pokračovat ve zpracování zbytku obsahu, zatímco komprimované nebo binární soubory poškození může udělat více bajtů soubor zcela nevyvážený. Mnoho verzí řídicích systémů jsou určeny pro textové soubory a s binárními soubory mohou fungovat pouze jako s jedním celým číslem.
  • Formát textového souboru je extrémně jednoduchý a může být změněn textovým editorem - program, který je součástí téměř každého OS.

Nevýhody:

  • Nízké nekomprimované textové soubory mají nízkou informační entropii - tyto soubory zabírají více místa než je minimálně potřebné. Ačkoli tato redundance a určuje zvýšenou odolnost proti poruchám v kanálech přenosu dat a po přijetí dat z médií, například z magnetické pásky.
  • Některé operace s textovými soubory jsou neúčinné. Například, pokud se číslo setká v souboru, výpočetní systém, dokud se začátek operací nemělo být přeloženo do jeho interního formátu, který uplatňuje relativně složitý postup pro převod čísla; Chcete-li jít do řádku 1000rd, je nutné počítat 999 řádků, které se k němu dostanou; Je těžké nahradit jeden řádek jiného, \u200b\u200ba tak dále. Proto, při práci s velkými svazky dat se textové soubory používají pouze jako mezilehlý formát, který poskytuje interoperabilitu.

Formáty na základě textových souborů

Na základě své jednoduchosti jsou textové soubory často používány k ukládání informací o službě (například protokoly): Protože provoz přidávání nových dat na konec textového souboru nevyžaduje žádné významné výpočetní prostředky bez ohledu na existující svazek souborů a typ textových dat přidaných textových dat. Soubory protokolu se obvykle vyskytují efektivně a bez povšimnutí pro uživatele a pro jiné aplikace (až do vyčerpání místa na disku).

Formát textu slouží jako základ pro mnoho dalších specializovaných formátů (například .ini, SGML, HTML, XML, TEX, zdrojové texty programovacích jazyků). V některých z těchto formátů mohou být použity určité kombinace znaků jako nástroje pro značkování textu. V tomto případě může soubor uložit formátovaný text, ve kterém mohou být symboly dodatečně zadány písmo, výkresu, velikosti atd. (Například, formát bohatého textu, HTML).

Vylepšené soubory souborů

V DOS a Windows se rozšíření .txt obvykle používá pro soubory s neformátovaným textem. Nicméně, texty mohou být soubory s jinými rozšířeními nebo bez něj. Například kódové kódy zdrojových programů jsou obvykle uloženy v rozšířených souborech, které odpovídají programovacímu jazyku, na kterém jsou napsány programy (.bas, .pas ,c .c).

Formátovaný text (text s označením) je obvykle uložen v souborech s příponou odpovídajícím formátu nebo značkovacímu jazyce - .RTF, .htm, .html.

Kódování

8bitový text

Historicky, 7-bitová sada znaků ASCII, stejně jako 8bitové Ebcdic a různé rozšíření ASCII, byly použity k zakódování textových souborů. V 8bitových kódových stránkách je obecně přijímána v první polovině symbolů kódových tabulek odpovídající ASCII.

Výhodou 8bitové textové prezentace je jednoduchost softwaru a nezávislost z problému bytů nebo délky stroje slovo na různých platformách. Nevýhodou je velký počet různých standardů, které mohou vést k neslučitelnosti.). Někdy se ke start souboru přidá speciální značka značka (U + FEFF)

Taková porucha je dána principy psacích strojů: Chcete-li jít do nového řetězce, musíte vrátit přepravu na začátek řádku ( návrat vozíku.) a pak otočte buben pro jeden řádek ( line Feed.). Při tisku na tiskárně může druhý znak stát samostatně (například pro zvýraznění řetězce, vytištěn dvakrát, nebo procházet bubnem do několika řádků), ale v textových souborech není potřeba.

Kromě toho, v textových souborech jsou znaky, jako je například tabulka (kód 9) a překlad stránky (0xc kódu). Ten byl používán starými textovými editory jako Lexicon, stejně jako v souborech určených k tisku na tiskárně.