![]() | технология, математика, информатика |
Персональный сайт учителя МОУ Пановской СОШ им. П.Л. Черябкина Моисеева В.В. |
|||||||
|
|||||||
![]()
|
Занятие 15.Текстовые редакторы и текстовые процессоры. Компьютер может работать с четырьмя видами информации: текстовой, графической, числовой и звуковой. Одним из самых массовых приложений ЭВМ является работа с текстами: создание текстовых документов и хранение их на различных носителях в виде файлов. Преимущества файлового хранения текстов: 1. экономия бумаги; 2. компактное размещение; 3. возможность многократного использования магнитного носителя для хранения разных документов; 4. возможность быстрого копирования на другие магнитные носители; 5. возможность передачи текста по линиям компьютерной связи. Самое поразительное отличие компьютерного текста от бумажного, если информация в нем организована по принципу гипертекста. Гипертекст – это способ организации текстовой информации, внутри которой установлены смысловые связи (гиперсвязи) между ее различными фрагментами. С гипертекстом вы уже встречались при работе со справочной системой ОС Windows. Иногда бывает так, что текст, состоящий из букв русского алфавита, полученный с другого компьютера, невозможно прочитать - на экране монитора видна какая-то "абракадабра". Как вы думаете, почему это происходит? С точки зрения компьютера текст - это любая последовательность символов из компьютерного алфавита. Совсем не обязательно, чтобы это был текст на одном из естественных языков (русском, английском и др.). Это могут быть математические или химические формулы, номера телефонов, числовые таблицы. Самое главное, чтобы все используемые символы входили бы в компьютерный алфавит. Кодирование текстов Для представления информации в компьютере используется алфавит мощностью 256 символов. Чему равен информационный вес одного символа такого алфавита? Вспомним формулу, связывающую информационный вес символа алфавита и мощность алфавита: 2i = N Если мощность алфавита равна 256, то i = 8, и, следовательно, один символ несет 8 бит информации.Всякая информация представляется в памяти ЭВМ в двоичном виде, а это значит, что каждый символ представляется 8-разрядным двоичным кодом. 8 бит = 1 байту, поэтому двоичный код каждого символа в компьютерном тексте занимает 1 байт памяти. Удобство побайтового кодирования символов очевидно, поскольку байт - наименьшая адресуемая часть памяти и, следовательно, процессор может обратиться к каждому символу отдельно, выполняя обработку текста. С другой стороны, 256 символов – это вполне достаточное количество для представления самой разнообразной символьной информации. Теперь возникает вопрос, какой именно восьмиразрядный двоичный код поставить в соответствие каждому символу. Понятно, что это дело условное, можно придумать множество способов кодировки. Все символы компьютерного алфавита пронумерованы от 0 до 255. Каждому номеру соответствует восьмиразрядный двоичный код от 00000000 до 11111111. Этот код просто порядковый номер символа в двоичной системе счисления. Таблица, в которой всем символам компьютерного алфавита поставлены в соответствие порядковые номера, называется таблицей кодировки. Международным стандартом для ПК стала таблица ASCII (читается аски) (Американский стандартный код для информационного обмена). На практике можно встретиться и с другой таблицей – КОИ-8 (Код обмена информацией), которая используется в глобальных компьютерных сетях. Таблица кодов ASCII делится на две части. Международным стандартом является лишь первая половина таблицы, т.е. символы с номерами от 0 (00000000), до 127 (01111111). Сюда входят строчные и прописные буквы латинского алфавита, десятичные цифры, знаки препинания, всевозможные скобки, коммерческие и другие символы. Символы с номерами от 0 до 31 принято называть управляющими. Их функция – управление процессом вывода текста на экран или печать, подача звукового сигнала, разметка текста и т.п. Символ 32 - пробел, т.е. пустая позиция в тексте. Все остальные отражаются определенными знаками. В таблице кодировки буквы (прописные и строчные) располагаются в алфавитном порядке, а цифры упорядочены по возрастанию значений. Такое соблюдение лексикографического порядка в расположении символов называется принципом последовательного кодирования алфавита. Вторая половина кодовой таблицы ASCII, называемая кодовой страницей (128 кодов, начиная с 10000000 и кончая 11111111), может иметь различные варианты, каждый вариант имеет свой номер. Кодовая страница в первую очередь используется для размещения национальных алфавитов, отличных от латинского. В русских национальных кодировках в этой части таблицы размещаются символы русского алфавита. Для букв русского алфавита также соблюдается принцип последовательного кодирования. В настоящее время существуют пять различных кодировок кириллицы (КОИ8-Р, Windows. MS-DOS, Macintosh и ISO). Из-за этого часто возникают проблемы с переносом русского текста с одного компьютера на другой, из одной программной системы в другую. Хронологически одним из первых стандартов кодирования русских букв на компьютерах был КОИ-8 ("Код обмена информацией, 8-битный"). Эта кодировка применялась еще в 70-ые годы на компьютерах серии ЕС ЭВМ, а с середины 80-х стала использоваться в первых русифицированных версиях операционной системы UNIX. С начала 90-х годов, когда господствовала операционная система MS DOS, остается кодировка CP866 ("CP" означает "Code Page", "кодовая страница"). Компьютеры фирмы Apple, работающие под управлением операционной системы Mac OS, используют свою собственную кодировку Mac. Кроме того, Международная организация по стандартизации (International Standards Organization, ISO) утвердила в качестве стандарта для русского языка еще одну кодировку под названием ISO 8859-5. Наиболее распространенной в настоящее время является кодировка Microsoft Windows, обозначаемая сокращением CP1251. С конца 90-х годов проблема стандартизации символьного кодирования решается введением нового международного стандарта, который называется Unicode. Это 16-разрядная кодировка, т.е. в ней на каждый символ отводится 2 байта памяти. Конечно, при этом объем занимаемой памяти увеличивается в 2 раза. Но зато такая кодовая таблица допускает включение до 65536 символов. Полная спецификация стандарта Unicode включает в себя все существующие, вымершие и искусственно созданные алфавиты мира, а также множество математических, музыкальных, химических и прочих символов. Тест. |
Copyright MyCorp © 2023 |