29 Для обеспечения отказоустойчивости в системе применяются самопроверяемые модули. Важным понятием в отказоустойчивой системе является понятие зоны распространения ошибки. Зона определяется как модуль или системная шина, которые ограничены контролируемыми интерфейсами. Средства обнаружения ошибок располагаются в каждом контролируемом интерфейсе. Такое разбиение системы на зоны позволило существенно упростить алгоритм обнаружения и изоляции ошибок. На рис. 1.2.2 штриховыми линиями выделены 4 зоны распространения ошибок. Зона распространения ошибок ПД включает в себя ПД, его ШИУ, процессорную шину и вспомогательную логику. Ошибки ПД контролируются (кристаллов), из которых состоит ПД ния результатов их работы. ПД которых может быть как основным, так и контролирующим. Выбор статуса ПД (основной или контролирующий) производится при инициализации системы. Оба ПД работают синхронно, параллельно и с одинаковыми данными. Результаты их работы сравниваются схемой сравнения (СС). Например, основным по статусу может являться верхний ПД и результаты работы двух ПД сравниваются на схеме сравнения. При этом сигнал запрета поступает на нижнюю схему с тремя состояниями возВ результате выходная информация основного ПД будет поступать как на выход пары, так и на вход схемы сравнения, на второй вход которой поступает выходная информация контрольного ПД. При неисправности, никшей в основном или контрольном ПД, на выходе схемы сравнения поясигнал ошибки. Если поменять статусы ПД (основной, контрольный), то сравнение будет выполнять вторая СС и сигнал запрета будет поступать на верхнюю схему с тремя состояниями. Интерфейсный модуль, УУП, ШИУ также выполнены в виде самопроверяемых модулей, контроль в которых осуществляется дублированием со вится |
27 шин данных и управления вводятся свои независимые разряды четности. Таким образом, на системной шине контролируются все одиночные неисправности и многие кратные. Каждый модуль памяти защищен корректирующим кодом, обеспечивающим коррекцию одиночных ошибок и обнаружение двойных. Адресные ошибки также контролируются, поскольку контрольные разряды при записи в память формируются на основании как данных, которые будут записаны в память, так и адреса, по которому должны быть данные записаны. УУП обеспечивает возможность программным способом использовать имеющийся в памяти один резервный разряд. Вся оперативная память содержит 40 кристаллов: 32 разряда данных, 7 контрольных разрядов корректирующего кода и 1 резервный разряд. Резервный разряд может подключаться взамен одного неисправного из 39 разрядов. Для обеспечения отказоустойчивости в системе применяются самопроверяемые модули. Важным понятием в отказоустойчивой системе является понятие зоны распространения ошибки. Зона определяется как модуль или системная шина, которые ограничены контролируемыми интерфейсами. Средства обнаружения ошибок располагаются в каждом контролируемом интерфейсе. Такое разбиение системы на зоны позволило существенно упростить алгоритм обнаружения и изоляции ошибок. На рис. 1.3 штриховыми линиями выделены 4 зоны распространения ошибок. Зона распространения ошибок ПД включает в себя ПД, его ШИУ, процессорную шину и вспомогательную логику. Ошибки ПД контролируются путем дублирования СБИС (кристаллов), из которых состоит ПД, и сравнения результатов их работы. Схема самопроверяемого модуля, состоящего из двух ПД, каждый из которых может бьггь как основным, так и контролирующим. Выбор статуса ПД (основной или контролирующий) производится при инициализации системы. Оба ПД работают синхронно, параллельно и с од инаковыми данными. Результаты их работы 28 сравниваются схемой сравнения (СС). Например, основным по статусу может являться верхний ПД и результаты работы двух ПД сравниваются на схеме сравнения. При этом сигнал запрета поступает на нижнюю схему с тремя состояниями. В результате выходная информация основного ПД будет поступать как на выход пары, так и на вход схемы сравнения, на второй вход которой поступает выходная информация контрольного ПД. При неисправности, возникшей в основном или контрольном ПД, на выходе схемы сравнения появится сигнал ошибки. Если поменять статусы ПД (основной, контрольный), то сравнение будет выполнять вторая схема сравнения и сигнал запрета будет поступать на верхнюю схему с тремя состояниями. Интерфейсный модуль, УУП, ШИУ также выполнены в виде самопроверяемых модулей, контроль в которых осуществляется дублированием со сравнением. После того, как в системе будет обнаружена ошибка, выполняется восстановление путем повторения. В течение того временного цикла, когда была зафиксирована ошибка, все обмены по системной шине приостанавливаются и отменяются все запросы на обмен по системной шине. Система входит в состояние оживания, что позволяет устранить влияние кратковременных сбоев. Состояние ожидания может длиться от 16 мкс до 2 с. Время оживания устанавливается программным способом. По истечении времени ожидания все текущие запросы на обмен (и те, которые были отменены) повторяются ШИУ, что позволяет выполнять восстановление по отношению к сбоям и к одиночным корректируемым отказам в памяти. Свойство наращиваемости позволяет организовать систему с непрерывным функционированием при наличии отказов в модулях. Уровень вводимой в систему избыточности устанавливается программно. Восстановление вычислительного процесса выполняют УУП и ШИУ без какой либо программной поддержки. Система позволяет объединять самопроверяемые модули в пары. При этом один модуль пары является основным, а второй — «теневым». Фактиче |