Набор полезных программ

Рассмотрим семейство родственных программ, предназначенных для выполнения простых операций над символьными данными.

Ввод и вывод символов

Стандартная библиотека включает функции для чтения и записи по одному символу за один раз. Функция getchar() извлекает следующий вводимый символ каждый раз, как к ней обращаются, и возвращает этот символ в качестве своего значения. Это значит, что после

c = getchar()

переменная 'c' содержит следующий символ из входных данных. Символы обычно поступают с терминала.

функция putchar(c) является дополнением к getchar: в результате обращения

putchar(c)

содержимое переменной 'c' выдается на некоторый выходной носитель, обычно опять на терминал. Обращение к функциям putchar и printf могут перемежаться; выдача будет появляться в том порядке, в котором происходят обращения.

Копирование файла

Имея в своем распоряжении только функции getchar и putchar вы можете, не зная ничего более об операциях ввода-вывода, написать удивительное количество полезных программ. Простейшим примером может служить программа посимвольного копирования вводного файла в выводной. Общая схема имеет вид:

ввести символ
while (символ не является признаком конца файла)
  вывести только что прочитанный символ
  ввести новый символ

программа, написанная на языке C, выглядит следующим образом:

main()  /* копирование со входа на выход - вариант 1 */
{
   int c;

   c = getchar();
   while (c != EOF) {
          putchar (c);
          c = getchar();
   }
}

оператор отношения != означает "не равно". Символическое имя EOF является признаком конца файла.

Переменная 'c' описана как int, а не char, с тем чтобы она могла хранить значение, возвращаемое getchar. Эта величина действительно int, так как она должна быть в состоянии в дополнение ко всем возможным символам представлять и EOF, задаваемое одним из следующих определений

#define EOF 0

или

#define EOF -1

В языке C любое присваивание, такое как

c = getchar()

может быть использовано в выражении; его значение - просто значение, присваиваемое левой части. Если присваивание символа переменной 'c' поместить внутрь проверочной части оператора while, то программа копирования файла запишется в виде:

main()  /* копирование со входа на выход - вариант 2 */
{
int c;

while ((c = getchar()) != EOF)
putchar(c);
}

Программа извлекает символ , присваивает его переменной 'c' и затем проверяет, не является ли этот символ признаком конца файла. Если нет - выполняется тело оператора while, выводящее этот символ. Затем цикл while повторяется. Когда, наконец, будет достигнут конец файла ввода, оператор while завершается, а вместе с ним заканчивается выполнение и функции main.

В этой версии централизуется ввод - в программе только одно обращение к функции getchar - и ужимается программа. Вложение присваивания в проверяемое условие - это одно из тех мест языка C, которое приводит к значительному сокращению программ.

Важно понять , что круглые скобки вокруг присваивания в условном выражении действительно необходимы. Старшинство операции != выше, чем операции присваивания =, а это означает, что в отсутствие круглых скобок проверка условия != будет выполнена до присваивания =. Таким образом, оператор

c = getchar() != EOF

эквивалентен оператору

c = (getchar() != EOF)

Это, вопреки нашему желанию, приведет к тому, что 'c' будет принимать значение 0 или 1 в зависимости от того, натолкнется или нет getchar на признак конца файла.

Подсчет символов

Следующая программа подсчитывает число символов; она представляет собой небольшое развитие программы копирования.

main()  /* подсчет символов во входном потоке */
{
    long nc;

    nc = 0;
    while (getchar() != EOF)
   ++nc;
    printf("%ld\n", nc);
}

оператор

++nc;

демонстрирует новую операцию, ++, которая означает увеличение на единицу. Вы могли бы написать nc = nc + 1, но ++nc более кратко и зачастую более эффективно. Имеется соответствующая операция -- уменьшение на единицу. Операции ++ и -- могут быть либо префиксными (++nc), либо постфиксными (nc++); эти две формы, имеют в выражениях различные значения, но как ++nc, так и nc++ увеличивают nc.

Программа подсчета символов накапливает их количество в переменной типа long, а не int. Спецификация преобразования %ld указывает printf, что соответствующий аргумент является целым типа long.

Чтобы справиться с еще большими числами, вы можете использовать тип double / float двойной длины/. Мы также используем оператор for вместо while с тем, чтобы проиллюстрировать другой способ записи цикла.

main()  /* подсчет символов во входном потоке */
{
    double  nc;

    for (nc = 0; getchar() != EOF; ++nc)
   ;
    printf("%.0f\n", nc);
}

функция printf использует спецификацию %f как для float, так и для double; спецификация %.0f подавляет печать несуществующей дробной части.

Тело оператора цикла for здесь пусто, так как вся работа выполняется в проверочной и реинициализационной частях. Но грамматические правила языка C требуют, чтобы оператор for имел тело. Изолированная точка с запятой, соответствующая пустому оператору, появляется здесь, чтобы удовлетворить этому требованию. Мы выделили ее на отдельную строку, чтобы сделать ее более заметной.

Если файл ввода не содержит никаких символов, то условие в while или for не выполнится при самом первом обращении к getchar, и, следовательно, программа выдаст нуль. Одним из приятных свойств операторов while и for является то, что они проверяют условие в начале цикла, т.е. до выполнения тела. Если делать ничего не надо, то ничего не будет сделано, даже если это означает, что тело цикла никогда не будет выполняться.

Подсчет строк

Следующая программа подсчитывает количество строк в файле ввода. Предполагается, что строки ввода заканчиваются символом новой строки \n, скрупулезно добавленным к каждой выписанной строке.

main()  /* подсчет строк во входном потоке */
{
    int c,nl;

    nl = 0;
    while ((c = getchar()) != EOF)
   if (c =='\n')
       ++nl;
    printf("%d\n", nl);
}

Тело while теперь содержит оператор if, который в свою очередь управляет оператором увеличения ++nl. Оператор if проверяет заключенное в круглые скобки условие и, если оно истинно, выполняет следующий за ним оператор /или группу операторов, заключенных в фигурные скобки/.

Удвоенный знак равенства == является обозначением в языке C для "равно". Этот символ введен для того, чтобы отличать проверку на равенство от одиночного =, используемого при присваивании.

Любой отдельный символ может быть записан внутри одиночных кавычек, и при этом ему соответствует значение, равное численному значению этого символа в машинном наборе символов; это называется символьной константой. Так, например, 'a' - символьная константа; ее значение в наборе символов ASCII /американский стандартный код для обмена информацией/ равно 65, внутреннему представлению символа а.

Условные последовательности, используемые в символьных строках, также занимают законное место среди символьных констант. Так в проверках и арифметических выражениях '\n' представляет значение символа новой строки. Вы должны твердо уяснить, что '\n' - отдельный символ, который в выражениях эквивалентен одиночному целому; с другой стороны "\n" - это символьная строка, которая содержит только один символ.

Подсчет слов

Следующая программа подсчитывает количество строк, слов и символов, используя при этом весьма широкое определение, что словом является любая последовательность символов, не содержащая пробелов, табуляций или новых строк. /Это - упрощенная версия утилиты 'wc' системы 'UNIX'/

#define    yes  1
#define    no   0

main()  /* count lines, words, chars in input */
{
   int c, nc, nl, nw, inword;

   inword = no;
   nl = nw = nc = 0;
   while((c = getchar()) != EOF)  {
       ++nc;
       if (c == '\n')
            ++nl;
       if (c==' ' || c=='\n' || c=='\t')
            inword = no;
       else if (inword == no)  {
            inword = yes;
            ++nw;
       }
   }
   printf("%d %d %d\n", nl, nw, nc);
}

Каждый раз, когда программа встречает первый символ слова, она увеличивает счетчик числа слов на единицу. переменная inword следит за тем, находится ли программа в настоящий момент внутри слова или нет; сначала этой переменной присваивается " не в слове", чему соответствует значение no. Символические константы yes и no предпочительней литерных значений 1 и 0, потому что они делают программу более удобной для чтения.

Строка

nl = nw = nc = 0;

полагает все три переменные равными нулю. Это не особый случай, а следствие того обстоятельства, что оператору присваивания соответствует некоторое значение и присваивания проводятся последовательно справа налево. Таким образом, дело обстоит так, как если бы мы написали

nc = (nl = (nw = 0));

операция || означает OR (или), так что строка

if( c==' ' || c=='\n' || c=='\t')

говорит "если с - пробел, или с - символ новой строки, или с -табуляция ..."./условная последовательность \t является изображением символа табуляции/.

Имеется соответствующая операция && для and. Выражения, связанные операциями && или ||, рассматриваются слева на право, и при этом гарантируется, что оценивание выражений будет прекращено, как только станет ясно, является ли все выражение истинным или ложным. Так, если 'c' оказывается пробелом, то нет никакой необходимости проверять, является ли 'c' символом новой строки или табуляции, и такие проверки действительно не делаются.

Этот пример также демонстрирует оператор else языка "C", который указывает то действие, которое должно выполняться, если условие, содержащееся в операторе if, окажется ложным.

Общая форма такова:

if (выражение) 
оператор-1 
else оператор-2

Выполняется один и только один из двух операторов, связанных с конструкцией if-else. Если выражение истинно, выполняется оператор-1; если нет - выполняется оператор-2. Фактически каждый оператор может быть довольно сложным. В программе подсчета слов оператор, следующий за else, является оператором if, который управляет двумя операторами в фигурных скобках.