Интегрированная диагностика передаёт функции обеспечения надёжности систем на уровень микросхем АЦП

Брайан Лайзон (Bryan Lizon)

С ростом сложности систем, для обеспечения поддержки производительности и безотказности на системном уровне, разработчики ИС АЦП начали вводить функции обеспечения надёжности на уровень микросхем.

 

Минимизация рисков и неопределённости — основополагающая цель всех инженеров. Соответственно, надёжность является одним из базовых принципов, на котором строятся все инженерные дисциплины.

И в XXI веке, и далее данный принцип будет становиться всё более важным, так как мы всё больше будем полагаться на технологии, упрощающие нашу жизнь и совершенствующие мир. От беспилотных автомобилей до интеллектуальной энергетики и автоматизации предприятий — везде потребность в наличии функций надёжности электронных систем будет только расти.

Для удовлетворения этой потребности разработчики аналоговых интегральных схем (ИС) стали встраивать функции обеспечения надёжности системного уровня уже на уровень самих микросхем. Таким образом, инженеры предоставляют разработчикам систем новый уровень информации, который при надлежащем использовании может помочь снизить вероятность сбоя устройства, обеспечивая более высокую надёжность системы в целом.

Мотивация к надёжности

По мере повышения сложности новейших систем и их всё более широкого распространения — например, в целых городах, где инженерные сети, коммуникации и дорожное движение контролируются для повышения их эффективности, — там повышается и вероятность сбоя части(ей) этой системы. Учитывая тот факт, что какая-то вероятность сбоев неизбежна и ожидаема в процессе разработки сложных систем, надёжность должна быть основополагающим принципом разработки. К сожалению, большинство обсуждений инженерных решений и их надёжности сводится к анализу полученного опыта и того, что пошло не так в каком-то отдельно взятом случае.

Хрестоматийным примером такого обсуждения является взрыв шаттла «Челленджер» (1986 г.) (рисунок 1), когда нетипично низкая температура запуска привела к тому, что уплотнительное кольцо стыка ракетного двигателя на твёрдом топливе оказалось в неверном положении. Это привело к утечке топлива под давлением, из-за чего в конечном итоге шаттл был уничтожен и погибли все семь членов его экипажа. Такие катастрофы усиливают понимание последствий ненадёжных систем и помогают определиться с тем, как не должны вести себя надёжные системы.

 Взрыв шаттла «Челленджер» Источник: NASA

Рисунок 1. Взрыв шаттла «Челленджер» Источник: NASA

К счастью, в абсолютном большинстве случаев сложные, высокоэффективные системы работают так, как должны, в соответствии с целью их разработки, благодаря точной и кропотливой планомерной работе инженеров при соблюдении соответствующих мер предотвращения сбоев. На самом деле, несмотря на широкую известность таких событий, как обвал моста через реку Миссисипи в Миннесоте (2007 г.) или взрыв нефтяной вышки DeepwaterHorizon (2010 г.), в США существует более 600 000 мостов и 3500 нефтяных вышек, каждая из которых при должном техническом обслуживании продолжает безопасно и надёжно работать.

Таким образом, обсуждение надёжности должно идти не только в ключе попыток избежать катастроф, а быть направленным на предоставление продуманных, качественных продуктов, обеспечивающих предсказуемую функциональность при соблюдении ряда рекомендованных условий эксплуатации. Тем не менее, в силу того что время выводит технологическую интеграцию на невиданный ранее уровень, а сложность систем повышается до уровня целых городов или даже регионов, традиционного подхода к определению надёжности посредством учёта ограниченной надёжности отдельных устройств может быть недостаточно. Инженеры должны переосмыслить своё отношение к разработке.

Признав тот факт, что надёжность конечного устройства ограничивается его наименее надёжным компонентом, разработчики ИС начали создавать новые разумные устройства, предоставляющие обратную связь о своём общем состоянии, а также о состоянии отдельных функций.

Кроме того, они начали применять больше активных решений, которые могут обнаруживать ошибки данных, а также имеют возможность их устранять.

Для обеспечения производительности в более жёстких и требовательных производственных условиях встроенные функции отслеживания обеспечивают новые способы подтверждения того, что каналы входа системы, от внешних подключений обрабатываемого сигнала до общей температуры системы, находятся в пределах разрешённых, прогнозируемых показаний и работают корректно. Это повышает надёжность устройства и поставляет важные данные управляющей системе.

Повышение надёжности систем

Инженеры, задумывающиеся о надёжности, создают модели и тестируют частоту отказов своих устройств, определяя ожидаемые или предполагаемые условия, которые приводят к ненадёжной работе. Они также определяют, за какое время достигается такое состояние. Для этого ИС проходят целый ряд тестов качества и надёжности.

При определении минимального и максимального значений электрических характеристик, например, могут использоваться несколько способов, в зависимости от настройки. Многие параметры, такие как погрешность смещения, отклонение коэффициента усиления или подавление синфазного сигнала, тестируются при производстве, когда измеряются характеристики каждого устройства. Устройства, не соответствующие определённым требованиям/условиям, отбраковываются.

Другие характеристики устройства определяются посредством диагностики случайной выборки устройств, обычно 30 или более. После того как эти данные будут собраны и проанализированы, для определения приемлемого допуска (или предела), который может ожидать пользователь, используется среднеквадратическое отклонение (или несколько).

На рисунке 2 показаны некоторые параметры, которые обычно тестируются таким образом (хотя и не всегда).

 Пример параметров

Рисунок 2. Пример параметров, которые обычно определяются по данным диагностики

При этом минимальное и максимальное значения каждой электрической характеристики не просто определяют качество и надёжность. Они также показывают, каким образом на надёжность устройства влияют определённые факторы окружающей среды, такие как высокая температура, электростатические разряды (ЭР), чувствительность к влаге, тепловое сопротивление, а также пределы этих источников стресса.

Кроме того, данные диагностики качества предоставляют и другую полезную информацию, такую как частота отказов в начальном периоде эксплуатации (ELFR) и время наработки на отказ (MTBF), предоставляя пользователю статистически определённый срок службы продукта, в течение которого он может ожидать надёжной работы устройства.

В сфере полупроводников разделение между надёжной и ненадёжной работой просто определить с помощью раздела технического паспорта «Рекомендованные условия эксплуатации» (рисунок 3), где указаны ограничения для каждого параметра с учётом некоторого допуска ошибки. Если, например, напряжения на входах аналого-цифрового преобразователя (АЦП) сохраняются в этих пределах, то пользователь может ожидать предсказуемой работы в ходе всего срока эксплуатации продукта. Это отличается от абсолютных максимальных параметров, определяющих пределы характеристик, которые не повредят устройство. Эти максимальные параметры менее ограничительные, чем рекомендованные условия эксплуатации, они не предоставляют каких-либо оценок надёжной работы АЦП, и в случае длительной эксплуатации их превышение может привести к необратимым повреждениям.

 Разница между рекомендованными условиями эксплуатации и абсолютными максимальными номинальными параметрами

Рисунок 3. Разница между рекомендованными условиями эксплуатации и абсолютными максимальными номинальными параметрами

Тем не менее работа в рекомендованных условиях эксплуатации просто означает поддержание надёжности и не обязательно является способом её повышения.

Одним из способов повышения надёжности является резервирование. Это подразумевает создание резервных систем, позволяющих процессам продолжить работу даже в случае обнаруженного сбоя. Реальным примером резервирования, который знает каждый из нас, является наличие запасного ключа от дома на случай потери оригинала. При всей простоте данной идеи, она часто развивается в невероятно сложные системы.

Теоретически, резервирование можно смоделировать, как показано на рисунке 4, где n равно количеству резервированных узлов системы (n=0 значит отсутствие резервирования). Данный рисунок показывает то, что обычно называют «холодным» резервированием, при котором одна система остаётся включённой, в то время как резервирующие системы отключены. Данный способ может помочь устранить ненужные перегрузки от резервных систем, когда они включены, но не используются, а также снизить затраты на электроэнергию для питания неиспользуемых систем. Дополнительные способы резервирования включают «горячее» резервирование или модульное резервирование. Данные способы подразумевают параллельное питание всех модулей, невзирая на затраты на электроэнергию в пользу скорости переключения или оптимизации выходного сигнала.

 Модели холодного резервирования для n=0, 1 и 2

Рисунок 4. Модели холодного резервирования для n=0, 1 и 2

Основным преимуществом резервирования является тот факт, что оно может повысить общую надёжность системы до уровня, намного превышающего надёжность каждого компонента. Если предположить, что надёжность каждого компонента независима, даже небольшой уровень резервирования может дать положительный результат.

К сожалению, реальной независимости компонентов тяжело достичь. Даже при тщательном планировании и разработке непредвиденные взаимодействия в системе могут привести к одновременному сбою, казалось бы, независимых систем резервирования — феномену, известному как отказ по общей причине. В примере с катастрофой «Челленджера» в стыке ракетного двигателя на твёрдом топливе было два уплотнительных кольца (рисунок 5), второе из которых было установлено на случай неисправности первого. К сожалению, низкая температура повлияла в равной степени на оба уплотнительных кольца, что привело к одновременной неисправности обоих.

 Чертёж разгонной ступени шаттла «Челленджер» в разрезе

Рисунок 5. Чертёж разгонной ступени шаттла «Челленджер» в разрезе, на котором показано положение неисправных уплотнительных колец
Источник: NASA

На разрезе твёрдотопливного ракетного двигателя показано положение хвостовика, соединительной скобы и уплотнительных колец. Мастика покрывает стык с внутренней стороны, стороны топлива.

Притом что для повышения надёжности системы можно использовать резервирование, есть и другие методы, помогающие повысить надёжность. Примерами могут служить радиационное упрочнение, более высокие изоляционные барьеры, а также более совершенное подавление помех по питанию (PSR). Тем не менее данные методики не должны быть фиксированными, а также не должны применяться только на системном уровне. Фактически, с ростом потребности в более масштабных и сложных системах также растёт и потребность в компонентах оборудования с более развитой логикой, которые вносят активный вклад в общее состояние систем, в которых они установлены.

Создание динамических функций повышения надёжности на более тонком уровне позволит убедиться в том, что каждое звено сложной системы работает исправно в течение всего периода эксплуатации. Придерживаясь данной концепции, разработчики ИС создали АЦП, приспособленные под особые требования, как, например, в случае с 32-битными АЦП ADS1262 и ADS1263. Эти устройства — одни из первых промышленных АЦП, снабжённых рядом функций отслеживания и защиты.

Встроенная диагностика

ADS1262/3 (рисунок 6) содержит как аналоговые, так и цифровые способы отслеживания, обеспечивающие дополнительный уровень диагностических способностей. Аналоговая часть оборудована встроенным усилителем с программируемым коэффициентом усиления (PGA), включающим функции обнаружения выхода за диапазон и обнаружения сигналов шин земли/питания. Первая функция определяет, превышает ли разность между максимальным и минимальным выходным напряжением ±105% от полного диапазона напряжений (VЭТАЛ.), а вторая устанавливает флаг, если напряжение какого-либо из выводов PGA находится в пределах 100 мВ от напряжения источника (AVDD или AVSS). Кроме того, оба АЦП снабжены функцией обнаружения эталонного напряжения, когда разность между эталонными напряжениями (VЭТАЛ.P.-VЭТАЛ.N) постоянно сравнивается со значением в 0,4 В. АЦП обновляют байт статуса преобразования после каждого цикла преобразования, указывая, упало ли оно ниже данного значения.

 Блок-схема системы АЦП высокого разрешения с низким уровнем шума

Рисунок 6. Блок-схема системы АЦП высокого разрешения с низким уровнем шума

В производственной среде шум обычно создаётся сильными сигналами радиочастот (РЧ), переходными процессами в электромоторах, искрением переключателей или просто работами по техническому обслуживанию, такими как электросварка. Для того чтобы свести к минимуму эффекты данного шума на чувствительные цифровые цепи, АЦП ADS1262/3 генерируют циклический избыточный код (CRC), а также обычную контрольную сумму, которые помогают обнаружить однобитовые и многобитовые ошибки.

Обе эти схемы обнаружения работают посредством вычисления известного значения из преобразованного результата, который затем сравнивается со значением, вычисленным обычным способом на хост-контроллере. Циклический избыточный код разделяет каждый байт данных на многочлен CRC-8-ATM (x8+x2+x+1), а обычная контрольная сумма суммирует все четыре типа данных, вместе с константой (0x9Bh). Если результаты АЦП и хоста различаются, выдаётся сообщение об ошибке. В таком случае данные могут быть прочитаны в обратной последовательности, чтобы восстановить изначальное выборочное значение.

Иногда выходные данные могут быть неверными всё время, что говорит о наличии более серьёзных проблем, чем внешние шумы. Если состояние АЦП под вопросом, одной из наиболее полезных функций, встроенных в ADS1262/3, является наличие тестового цифро-аналогового преобразователя (ЦАП) (рисунок 7).

 Блок-схема тестирующего АЦП

Рисунок 7. Блок-схема тестирующего АЦП

Для оценки состояния АЦП, ЦАП генерирует известное несимметричное дифференциальное или синфазное напряжение, которое также совместимо с любой настройкой встроенного усилителя с программируемым коэффициентом усиления. Обработав этот известный входной сигнал, АЦП должен генерировать известный выходной код. Если этого не случается, один из компонентов АЦП может работать неверно, что приводит к необходимости дальнейшей диагностики.

Кроме того, тестовый сигнал ЦАП можно направить на внешнее устройство, чтобы проверить наличие каких-либо проблем со схемой формирования сигнала. За этим мощным инструментом диагностики можно следить иногда, по запросу, или, для более важных приложений, использовать его после каждого отсчёта АЦП для проверки наличия ошибочных данных, возможно в связи с неработающим АЦП.

Другой способ проверки состояния основного АЦП подразумевает выполнение избыточных измерений с помощью дополнительного 24-битного АЦП в ADS1263, чтобы определить их соответствие. Если данные не совпадают, управляющая система может проверить байт статуса преобразования, чтобы определить, были ли установлены какие-либо флаги. В другом случае, так как тестовый сигнал с ЦАП можно направить на любой АЦП, можно убедиться, что они оба выдают одно и то же значение. Если нет, то одно из них может быть неисправно.

Данные функции отслеживания предоставляют несколько способов проверки общего состояния АЦП и работоспособности его отдельных компонентов, а также могут отправлять управляющей системе сигналы тревоги при обнаружении ненормальной работы. На основе большего количества информации хост-контроллер может быстрее принимать нужные решения, такие как перевод неисправных процессов в желаемое безопасное состояние или принудительная остановка всего завода. В конечном итоге, это обеспечит более безопасные условия эксплуатации.

Отслеживание входов системы

Функции, указанные выше, обычно используются для определения рабочего состояния нескольких отдельных элементов АЦП, а также для проверки их общего состояния. В замкнутой системе это может быть целесообразно. Тем не менее, так как обычно АЦП работает «не в вакууме», необходимо также наличие дополнительных средств слежения за состоянием АЦП из главной системы.

Например, ADS1262/3 оборудован датчиком температуры, который можно использовать для отслеживания температуры платы. В случае если этот датчик обнаруживает повышение температуры, скорость внешних вентиляторов охлаждения может автоматически увеличиваться. Если такой функции в системе нет, то она может отключиться, чтобы предотвратить повреждение устройства и дать время на исправление проблемы.

Как уже было указано, ADS1263 снабжён дополнительным 24-битным АЦП, имеющим собственный мультиплексор входа (MUX), усилитель с программируемым коэффициентом усиления и вход опорного сигнала (рисунок 8). Несмотря на то, что этот АЦП имеет несколько возможных применений, включая компенсацию холодного спая (CJC) в термопарах, а также подтверждение выхода из строя основного АЦП, дополнительный АЦП может использоваться для ряда других применений, чтобы помочь отслеживать входные сигналы системы.

 Блок-схема цепи сигналов основного и дополнительного АЦП

Рисунок 8. Блок-схема цепи сигналов основного и дополнительного АЦП

Расширяя способ избыточных измерений, описанный выше, можно использовать дополнительный АЦП для выполнения избыточных измерений основного АЦП, но с другим КУ усилителя с программируемым КУ. Данная конфигурация позволяет пользователю просматривать слабый сигнал, такой как измерение с мостового датчика, с более широкой перспективы. Она также позволяет обнаруживать факты ненормальной работы, такие как ограничение или неустановившееся напряжение, которые иначе могут остаться незамеченными и передаваться как верные данные. Для этого пользователь должен настроить на основном АЦП большой КУ, например 32, а у дополнительного АЦП должен быть коэффициент 1 (рисунок 9).

 Использование дополнительного АЦП для обнаружения макрособытий

Рисунок 9. Использование дополнительного АЦП для обнаружения макрособытий

С такой настройкой хост-контроллер будет лучше подготовлен к быстрому принятию эффективных решений в случае возникновения проблем. При обнаружении неустановившегося напряжения АЦП может запустить проверочный ЦАП и мониторы усилителя с программируемым КУ опорного сигнала, чтобы обнаружить повреждение любой из цепей сигнала. Или, если сигнал ограничивается, КУ может быть перенастроен в реальном времени, продолжая точную запись данных.

Другой важной функцией дополнительного АЦП является возможность использовать узел смещения датчика без прерывания работы основного АЦП. Узел смещения датчика включает настраиваемые резисторы или источники тока, которые передают максимальное положительное или отрицательное показание в случае отключённого датчика.

При использовании нескольких датчиков, таких как термопары и резистивные термометры, основной АЦП может получить отсчёт выходного сигнала первого датчика, в то время как дополнительный АЦП отслеживает показание смещения второго датчика на входе. Это помогает убедиться, что, когда основной АЦП будет готов к получению отсчёта второго датчика, он всё ещё будет подключён. Тем же образом можно поступить с датчиками три, четыре, пять и т. д.

Замечания

Во-первых, притом, что данные функции предоставляют информацию о внутренней или внешней надёжности, они не ограничиваются каким-то одним из типов. Например, разность между опорными напряжениями может предоставляться системой (без использования внутренней информации). В результате, в отличие от встроенной функции (возможности отслеживания опорного сигнала), возможно предоставление информации о входном сигнале системы. Кроме того, некоторые функции повышения надёжности устройства не обязательно использовать, как, например, дополнительный АЦП в микросхеме ADS1263, выполняющий компенсацию холодного спая.

Во-вторых, определённые обстоятельства, такие как удар молнии, могут навредить данным возможностям отслеживания. Поэтому они всегда должны работать совместно с общесистемными функциями обеспечения надёжности и не должны заменять регулярное обслуживание и внешнюю проверку управляющей системы.

Удовлетворение потребностей будущего

С развитием технологий и решением всё новых проблем будущего потребность в интеграции и без того сложных систем в одну взаимосвязанную систему будет только расти. Эти проблемы должны заставить инженеров всех сфер рассчитывать, какой пассивный и активный вклад в надёжную работу поддерживаемых систем вносят продукты, которые они создают.

Для удовлетворения потребностей будущего разработчики ИС Texas Instruments интегрируют функции обеспечения надёжности непосредственно в АЦП, позволяя этим устройствам играть активную роль в общем состоянии и безотказности систем, в которые они устанавливаются.

В случае с ADS1262/3 эти функции помогают предоставлять более надёжные данные, в то же время обеспечивая широкий спектр узконаправленной диагностической информации. Такие функции, равно как и диагностика, могут, при верном применении, помочь повысить надёжность системы в конечных устройствах изготовителя комплексного оборудования (ИКО).

В конечном счёте, добавление функций надёжности на уровень физических устройств может помочь ИКО снизить частоту сбоев сложных систем, которые они разрабатывают, тем самым всё приближая нынешнюю реальность к невероятным картинкам будущего.

Литература

  1. HistoryChannel, ChallengerDisaster.
  2. Scott D. Sagan. The Problem of RedundancyProblem: Why More Nuclear Security Forces May / Produce Less Nuclear Security, 02724332/04/0100-0935 $22.00/1 C, 2004 Society for Risk Analysis.
  3. Reliability Data: Reliability Estimator, Texas Instruments.
  4. ADS1262 datasheet.
  5. ADS1263 datasheet.