Время работы hdd на отказ

Введение Устройства хранения информации на жестких дисках традиционно устанавливались главным образом на настольных компьютерах, однако в последнее время накопители все чаще находят применение и в бытовой электронике. В настоящей статье описываются способы оценки надежности накопителей, установленных в настольных компьютерах и бытовых электронных устройствах, с использованием результатов станда...
article placeholder

Содержание:

Введение

Устройства хранения информации на жестких дисках традиционно устанавливались главным образом на настольных компьютерах, однако в последнее время накопители все чаще находят применение и в бытовой электронике. В настоящей статье описываются способы оценки надежности накопителей, установленных в настольных компьютерах и бытовых электронных устройствах, с использованием результатов стандартных лабораторных испытаний компании Seagate.

Определения

Под наработкой на отказ Seagate подразумевает отношение времени РОН (Power-On Hours — время в часах, в течение которого накопитель находился во включенном состоянии) в течение года к усредненной интенсивности отказов AFR (Annualized Failure Rate — годовая интенсивность отказов) за первый год. Такой метод дает достаточную точность при малом количестве отказов, поэтому мы используем его для расчета наработки на отказ «первого года». Усредненная годовая интенсивность отказов для накопителя рассчитывается на основе данных о времени безотказной работы, полученных в ходе испытаний RDT (Reliability-Demonstration Test — демонстрационные испытания надежности). По той же методике проводятся и заводские испытания FRDT (Factory Reliability-Demonstration Test — заводские демонстрационные испытания надежности), однако здесь проверяются серийные накопители из производственных серий. В рамках настоящего документа мы будем исходить из того, что любая концепция, применимая в отношении RDT, справедлива также и для FRDT.

Испытания на надежность, проводимые Seagate

В Группе персональных устройств хранения Seagate со штаб-квартирой в г. Лонгмонт (шт. Колорадо) испытания накопителей для настольных систем на надежность обычно проводятся в термокамерах при температуре окружающей среды +42 градуса по Цельсию, что повышает интенсивность отказов. Кроме того, накопители при этом эксплуатируются с максимально возможной продолжительностью включения (под продолжительностью включения дисковода понимается количество поисков данных, их считывания и записи в течение заданного отрезка времени). Это делается для того, чтобы выявить как можно больше причин отказа еще на стадии разработки изделия. Устранив проблемы, отмеченные на этом этапе, мы можем быть уверены, что наши пользователи с ними больше не столкнутся.

Оценка параметров по Weibull

Предположим, что испытанию RDT были подвергнуты 500 накопителей, каждый из которых проработал 672 часа при температуре окружающей среды 42°С. Допустим также, что в ходе испытания было отмечено три отказа (после 12, 133 и 232 часов работы). Это означает, что из 500 проверенных накопителей успешно прошли испытание 497. Для анализа и экстраполяции полученных результатов мы применяем моделирование по Weibull, используя для этого пакет программ SuperSmith фирмы Fulton Findings1. В частности, с помощью метода максимального правдоподобия производится оценка таких параметров распределения Weibull, как бета (форм-фактор) и эта (масштабный коэффициент).

(То есть априори предполагается, что отказы распределены согласно Weibull. Для тех, кто знаком с математической статистикой, приведу формулу плотности вероятности для этого распределения:

Weibull Distribution


Смысл проводимых испытаний — оценить параметры распределения. При этом считается, что при заданном значении бета параметр эта равен времени в часах, за которое выйдут из строя 90% тестируемых накопителей. (Обсуждение данной математической модели требует серьезных познаний в математической статистике и выходит за рамки данной статьи, поэтому предлагается принять ее как факт) — прим. редактора)
.

Если в ходе испытания отмечено пять или менее отказов, точно определить параметр бета по полученным данным невозможно. Поскольку такие результаты испытаний встречаются довольно часто, мы анализируем их с помощью метода WeiBayes2, в основу которого положена оценка параметра бета по статистическим данным. В лаборатории продукции для настольных компьютеров мы сейчас принимаем бета = 0,55. Такое значение получено на основе производственных данных, представленных ниже в таблице. Она составлена на основании испытания всех накопителей для настольных систем, прошедших проверку до марта 1999 г.

Место производства накопителей База данных Среднее значение бета Стандартное отклонение бета
Лонгмонт 37 RDT, 5 FRDT 0,546 0,176
Пераи 2 RDT, 4 FRDT 0,617 0,068
Вузи 1 RDT 0,388 нет данных
Обобщенные данные по настольным системам 49 испытаний 0,552 0,167

Приведенный ниже график отображает результаты анализа Weibull и WeiBayes. Сплошная линия соответствует параметрам бета и эта по Weibull (бета = 0,443, эта = 69 331 860), рассчитанным по методу MLE (Maximum Likelihood — максимальное правдоподобие)3 всего для 3 отказов на 500 накопителей. Как уже отмечалось, такие результаты считаются не столь точными, как полученные по методу WeiBayes для небольшой интенсивности отказов.

Результаты, полученные методом WeiBayes (для бета = 0,55), представлены на графике пунктирной линией. Поскольку 672 часа работы при температуре 42°С для испытания RDT вполне достаточно, мы использовали свой внутренний параметр «доверительная вероятность прекращения испытаний»4, который для анализа WeiBayes принят равным 63,2%. Расчет по методу WeiBayes показал, что при температуре 42°С и статистическом значении бета = 0,55 приемлемое значение эта составляет 3 787 073 часа.

Легенда к графику «Примеры анализа по методам Weibull и WeiBayes»
W/mle = Доверительная вероятность прекращения испытаний
WeiBayes fit = Аппроксимация WeiBayes
Observed Weibull fit via MLE = Аппроксимация данных исследования по Weibull методом максимального правдоподобия
Eta = эта
Beta = бета
n/s = (всего/исправных накопителей)

Следующий этап анализа состоит в пересчете параметра эта, полученного в результате тестов при 42°С, в значение, соответствующее нашей стандартной рабочей температуре (25°С). Опираясь на модель Arrhenius5, для учета температурных различий можно принять коэффициент учащения отказов равным 2,2208. Таким образом, значение эта для 25°С (эта25) будет равным значению этого параметра для 42°С (эта42), умноженному на 2,2208, то есть, 8 410 332 часа.

Оценка среднего времени наработки на отказ в течение первого года на основании параметров Weibull

На основании параметров бета и эта Weibull, полученных после температурной коррекции, в любой момент можно рассчитать суммарный процент отказов. Чтобы оценить процент накопителей, которые могут выйти из строя при температуре 25°С в промежутке времени от t1 до t2, достаточно произвести вычитание значений суммарного процента отказа в моменты t1 и t2, а затем воспользоваться соответствующими значениями бета и эта25.

Для оценки усредненной интенсивности отказов (параметр AFR) за первый год эксплуатации накопителя, установленного в настольном компьютере, примем, что у пользователя устройство находится во включенном состоянии 2 400 часов в год. Допустим также, что еще 24 часа оно эксплуатировалось на заводе на этапе интеграции. Поскольку все накопители, вышедшие из строя в течение этого периода, возвращаются в Seagate и к конечному пользователю не попадают, при расчете AFR и наработки на отказ за первый год они не учитываются.

С учетом приведенного выше (продолжительность включения 100%, эта25 = 8 410 332 час, бета = 0,55 и общее время работы за год 2 400 час) относительную интенсивность отказов за первый год можно рассчитать как интенсивность отказов, произошедших в период между 24 час (t1) и 2 424 час (t2). Результаты такого расчета приведены ниже в таблице, построенной на основе наработки на отказ в течение первого года и данных, полученных в ходе испытаний RDT.

Исходные данные: 2 400 час/год
Форм-фактор по Weibull (бета): 0,55
Масштабный коэффициент по Weibull (эта): 8 410 332
   
Р(отказов) от 0 до 2 400 час/год: 1,123%
Р(отказов) от 0 до 24 час: 0,089%
  —————
AFR за первый год 1,0338% (до округления)
   
Наработка за год: 2 400 час
AFR за первый год: 0,010338
  —————
Наработка на отказ за первый год по Weibull: 232 140 час

(Р(отказов) вычисляются на основании распределения Weibull — см. график. Далее понятно: Наработка на отказ за первый год = Наработка за год / AFR за первый год — прим. редактора).

Учет реальных условий использования

Как показывают приведенные выше расчеты, если накопитель используется при температуре 25°С и находится во включенном состоянии 2 400 часов в год, можно ожидать, что при работе у пользователя средняя наработка на отказ составит 232 140 часов. Однако такие условия соблюдаются в бытовой электронике не всегда. В некоторых бытовых приборах, скажем, накопитель может работать почти непрерывно, поэтому время его работы за год намного превысит 2 400 часов. В других же устройствах, например, игровых видеоприставках, этот показатель может оказаться значительно ниже. В последующих разделах описано, как именно можно скорректировать расчетное значение наработки на отказ для различной интенсивности использования, продолжительности включения и окружающей температуры.

Интенсивность использования

Учесть изменения средней наработки на отказ, вызванные различиями в интенсивности использования накопителя, можно с помощью приведенного графика.

Легенда к графику «Коррекция среднего времени наработки на отказ в зависимости от ожидаемого времени работы накопителя за год»
Название вертикальной оси — Корректирующий множитель для наработки на отказ
Название горизонтальной оси — Ожидаемое время работы накопителя за год

Например, если известна наработка на отказ для 2 400 рабочих часов в год, а реальное рабочее время за год составляет 8 760 часов, то среднее время наработки на отказ снизится примерно вдвое. И наоборот: когда накопитель работает мало, как это бывает в некоторых игровых видеоприставках, то наработка на отказ может почти удвоиться.

Температура

Теперь давайте посмотрим, как изменяется время наработки на отказ при повышении рабочей температуры. Для построения графика температурного коэффициента времени наработки на отказ можно применить ту же модель Arrhenius, которую мы использовали для определения коэффициента учащения отказов. Представленная ниже таблица показывает, как снижается наработка на отказ за первый год (если продолжительность включения составляет 100%) при температуре окружающей среды выше 25°С.

Температура, °С Коэффициент учащения отказов Температурный коэффициент снижения времени наработки на отказ Скорректи- рованное время наработки на отказ
25 1,0000 1,00 232 140
26 1,0507 0,95 220 533
30 1,2763 0,78 181 069
34 1,5425 0,65 150 891
38 1,8552 0,54 125 356
42 2,2208 0,45 104 463
46 2,6465 0,38 88 123
50 3,1401 0,32 74 284
54 3,7103 0,27 62 678
58 4,3664 0,23 53 392
62 5,1186 0,20 46 428
66 5,9779 0,17 39 464
70 6,9562 0,14 32 500

Как видно из таблицы, по мере роста окружающей температуры температурный коэффициент снижения времени наработки на отказ и скорректированная наработка на отказ значительно сокращаются. Так, при 42°С коэффициент учащения отказов составляет 2,2208 (как и было определено в ходе настоящего анализа ранее). А коэффициент коррекции времени наработки на отказ для этой же температуры равен 0,45, то есть среднее время наработки на отказ при температуре 42°С оказывается в два с лишним раза меньше, чем при температуре 25°С.

Продолжительность включения

Продолжительность включения большинства накопителей, установленных в персональных компьютерах, составляет от 20 до 30%, тогда как в бытовых электронных устройствах этот показатель может быть выше или ниже. Измерив объем данных, который пересылается внутри современных устройств бытовой электроники за сутки, специалисты Seagate установили, что продолжительность включения накопителей в них составляет всего 2,5%.

Чтобы определить, как изменяется наработка на отказ при продолжительности включения 2,5% по сравнению со 100% (такое значение характерно для испытаний RDT), нужно выяснить, какое влияние на этот процесс оказывают те компоненты накопителей, состояние которых зависит от продолжительности включения, а какое — другие его элементы. Количество зависимых компонентов в накопителе прямо пропорционально количеству пластин жестких дисков в нем. Взаимоотношение между числом жестких дисков и усредненной интенсивности отказов за первый год отображено на следующей иллюстрации. Пространство под пунктирной линией на этом графике соответствует «базовой», — то есть, не зависящей от того, как долго работает устройство, — интенсивности отказов гипотетического накопителя с нулевым количеством жестких дисков (или накопителя, который не производит чтения, записи и поиска информации). Сплошной линией отмечена ожидаемая интенсивность отказов как функция количества жестких дисков.

Легенда к графику «Зависимость общей и базовой усредненной интенсивности отказов от количества жестких дисков в накопителе»
Название вертикальной оси — Нормализованное значение AFR
Название горизонтальной оси — Количество пластин жестких дисков (не более 4)
Total AFR = Общая усредненная интенсивность отказов
Base AFR = Базовая усредненная интенсивность отказов

Как видно из графика, уменьшение продолжительности включения снижает количество только тех отказов, которые связаны со временем работы накопителя (пространство между пунктирной и сплошной линиями). Зная соотношение между количеством отказов, зависящих от продолжительности включения, и их общим числом, можно оценить влияние продолжительности включения на усредненную интенсивность отказов AFR. Так, для накопителя с четырьмя жесткими дисками общая интенсивность отказов составит 1,4%, а базовая — 0,6%. Снижение продолжительности включения уменьшит вероятность отказа на [(1,4 — 0,6)/1,4] = 57%. Таким образом, снижая время работы четырехдискового накопителя, мы можем уменьшить вероятность отказа только на 57%, остальная доля неполадок от продолжительности включения не зависит.

Изменение коэффициента наработки на отказ для накопителей с разным количеством жестких дисков представлено на следующем графике.

Легенда к графику «Зависимость коэффициента наработки на отказ от продолжительности включения накопителя и количества жестких дисков в нем»
Название вертикальной оси — Коэффициент наработки на отказ
Название горизонтальной оси — Продолжительность включения
1-disk… = Для дисковода минимальной емкости с 1 жестким диском
2-disk… = Для дисковода с 2 жесткими дисками
3-disk… = Для дисковода с 3 жесткими дисками
4-disk… = Для дисковода максимальной емкости с 4 жесткими дисками

Комплексный учет нескольких факторов

Продолжая анализ, оценим комбинированное воздействие различных значений продолжительности включения и температурных коэффициентов сокращения наработки на отказ для нескольких накопителей. На графике внизу слева представлены коэффициенты коррекции наработки на отказ для накопителя высокой емкости с 4 жесткими дисками при разных комбинациях продолжительности включения и температуры окружающей среды. Рисунок справа отображает такие же коэффициенты для накопителя, оснащенного только одним жестким диском. Как видно из этих графиков, в зависимости от продолжительности включения и рабочей температуры накопителя, установленного в ПК, эффективная наработка на отказ за первый год может оказаться выше, равной или ниже, чем ожидаемое значение этого параметра, рассчитанное по результатам заводских испытаний. При этом на накопителе с одним жестким диском изменение продолжительности включения и окружающей температуры сказывается слабее, а коэффициенты коррекции здесь значительно меньше.

Легенда к графикам «Снижение времени наработки на отказ в зависимости от температуры и продолжительности включения (для накопителя максимальной емкости с 4 жесткими дисками/минимальной емкости с 1 жестким диском)»
Название вертикальной оси — Коэффициент снижения времени наработка на отказ
Название горизонтальной оси — Окружающая температура, °С
DF@100%… = Продолжительность включения = 100%
DF@30%… = Продолжительность включения = 30%
DF@20%… = Продолжительность включения = 20%
DF@10%… = Продолжительность включения = 10%
DF@5%… = Продолжительность включения = 5%
DF@1%… = Продолжительность включения = 1%

Надежность после первого года эксплуатации

Согласно распределению Weibull, описывающему зависимость наработки на отказ от срока эксплуатации, при значении бета меньше единицы вероятность отказов оборудования со временем снижается. По этой причине интенсивность отказов накопителей на первом году эксплуатации должна быть выше, чем в последующие годы. Но какова будет интенсивность отказов или среднее время наработки на отказ, если усреднить эти показатели за все время эксплуатации накопителя? Ниже приведены три метода оценки надежности, позволяющие ответить на этот вопрос.

  • Можно с помощью анализа Weibull (бета, эта25) оценить количество возможных отказов после первого года эксплуатации. Однако для этого потребовалось бы получить дополнительные данные демонстрационных испытаний надежности, увеличив длительность самих испытаний на порядок или больше. Такой подход едва ли можно признать целесообразным.
  • Можно использовать информацию о гарантийном обслуживании из базы данных Seagate. Она позволит оценить соотношение накопителей, возвращенных на втором и третьем году эксплуатации, и устройств, в которых возникли сбои в течение первого года. Однако такие данные имеются только за первые три года эксплуатации — именно на этот срок распространяется действие большинства гарантийных обязательств Seagate на накопители для настольных компьютеров. Правда, серьезным преимуществом этого подхода является то, что все данные относятся исключительно к продукции Seagate для настольных систем.
  • Можно принять так называемую «плоскую» модель, предполагающую, что после завершения первого года эксплуатации интенсивность отказов остается на постоянном уровне. Это означает, что во все годы после первого интенсивность отказов будет такой же, как и на втором году эксплуатации. Поскольку вероятность отказа со временем уменьшается, данный метод дает осторожную оценку средней наработки на отказ для всего срока эксплуатации.

Сравнение всех трех моделей приведено в таблице ниже.

  МОДЕЛЬ:
Weibull По данным
гарантийного
обслуживания
(только по OEM)
»Плоская» модель
Год эксплу- атации Суммарная продолжи- тельность включения
(час)
Интен-
сив-
ность отказов
за год
Суммар-
ная интенсив-
ность
отказов
Интен-
сив-
ность отказов
за год
Суммар- ная
интенсив-
ность отказов
Интен-
сив-
ность отказов
за год
Суммар- ная
интенсив-
ность отказов
1 2 400 1,20% 1,20% 1,20% 1,20% 1,20% 1,20%
2 4 800 0,55% 1,75% 0,78% 1,98% 0,55% 1,75%
3 7 200 0,43% 2,18% 0,39% 2,37% 0,55% 2,30%
4 9 600 0,37% 2,55%     0,55% 2,86%
5 12 000 0,33% 2,88%     0,55% 3,41%
6 14 400 0,30% 3,18%     0,55% 3,96%
7 16 800 0,28% 3,46%     0,55% 4,51%
8 19 200 0,26% 3,72%     0,55% 5,06%
9 21 600 0,24% 3,96%     0,55% 5,62%
10 24 000 0,23% 4,19%     0,55% 6,17%

Чтобы нагляднее продемонстрировать различия между моделями, мы приводим график суммарной относительной интенсивности отказов, построенный на основании каждой из них (время наработка на отказ для первого года эксплуатации принято равным 200 000 часов).

Легенда к графику «Суммарная годовая интенсивность отказов, рассчитанная по Weibull и «плоской» модели, в сравнении с данными гарантийного обслуживания»
Название вертикальной оси (между цифрами точки заменить на запятые) — Суммарная интенсивность отказов за год эксплуатации пользователем
Название горизонтальной оси — Год эксплуатации пользователем
Weibull analysis = Анализ по Weibull
«Flatline» model = «Плоская» модель
Model based… = Модель оценки по данным гарантийного обслуживания

Как видно из приведенного выше графика, «плоская» модель дает более осторожную оценку, чем «чистый» анализ по Weibull, и очень близка к оценке по данным гарантийного обслуживания Seagate за первые три года. Для простоты анализа, а также для того, чтобы получить более осторожные оценки, мы решили применять в своих расчетах «плоскую» модель.

При использовании «плоской» модели суммарные результаты отношения между наработкой на отказ за все время эксплуатации к этому параметру за первый год могут выглядеть следующим образом:

Средние значения за первые три года:  
Отказов в год: 0,768%
Наработка на отказ: 312 500 час
Прирост по сравнению с некорректированным  
значением наработки на отказ (232 140 час):
1,56
   
Средние значения за первые пять лет:  
Отказов в год: 0,682%
Наработка на отказ: 352 113 час
Прирост по сравнению с некорректированным  
значением наработки на отказ (232 140 час):
1,76
   
Средние значения за первые десять лет:  
Отказов в год: 0,617%
Наработка на отказ: 389 105 час
Прирост по сравнению с некорректированным  
значением наработки на отказ (232 140 час):
1,95

Проведенные расчеты показывают, что для оценки среднего времени наработки на отказ за три года эксплуатации дисковода нужно умножить исходный показатель за первый год (для той же продолжительности включения и окружающей температуры) на коэффициент 1,56. Аналогично можно рассчитать и среднее время наработки на отказ за пять и десять лет, умножив значение исходного параметра за первый год на 1,76 и 1,95 соответственно.

Окончательный расчет

На основе всех коэффициентов, рассчитанных выше, мы можем преобразовать наработку на отказ, указываемую фирмой Seagate (на первый год эксплуатации, при 2 400 рабочих часах в год и продолжительности включения 100%) в среднее время наработки на отказ для накопителя, установленного в устройстве конечного пользователя и работающего при конкретной окружающей температуре с определенной продолжительностью включения. После этого можно также оценить и среднее время наработки на отказ за все время службы накопителя.

Ниже приведен пример расчета среднего времени наработки на отказ в течение первого года и всего срока эксплуатации для накопителя, работающего в течение 2 400 часов в год при температуре 34°С, продолжительности включения 30% и рассчитанного на срок службы 5 лет.

Наработка на отказ за первый год: 232 140 час (на основе параметров бета и эта25 по Weibull)
  х 0,90 (температурный коэффициент для 38°С и продолжительности включения 30%)
Наработка на отказ за первый год в устройстве пользователя: 208 926 час  
Наработка на отказ в устройстве пользователя: 208 926 час  
  х 1,76 (коэффициент усреднения за пятилетний период)
Наработка на отказ за весь срок эксплуатации в устройстве пользователя: 367 710 час  

В качестве завершающего примера рассмотрим накопитель Seagate с одним жестким диском, для которого наработка на отказ в течение первого года составляет 444 000 час. Допустим, он установлен в бытовом электронном устройстве, используется 2 920 часов в год (8 часов в день, 7 дней в неделю) при окружающей температуре 42°С и продолжительности включения 5%.

Наработка на отказ за первый год: 444 000 час (на основе параметров бета и эта25 по Weibull)
  х 0,92 (коррекция для 2 920 час/год)
  х 0,59 (температурный коэффициент для 42°С и продолжительности включения 5%)
  х 1,95 (коэффициент усреднения за 10-летний период)
Наработка на отказ в устройстве пользователя  в течение первого года: 469 956 час

Заключение

Описанный выше метод позволяет использовать данные лабораторных испытаний Seagate для оценки надежности накопителей, установленных в настольных компьютерах и бытовых электронных приборах, которые работают в условиях «реального мира». Вкратце этот метод сводится к следующему:

  • С помощью анализа Weibull или статистических данных испытаний RDT/FRDT оцените параметры Weibull для лабораторных условий.
  • Используя методику WeiBayes, проанализируйте данные испытаний для конкретного типа накопителя; определите значения усредненной интенсивности отказов AFR за первый год и наработку на отказ при проведении испытаний RDT.
  • Откорректируйте полученные результаты с учетом отличия лабораторных условий RDT от реальной температуры и продолжительности включения, при которых будет работать накопителей, установленный в аппаратуре конечного пользователя.
  • Исходя из осторожного предположения, что после первого года эксплуатации интенсивность отказов останется постоянной, пролонгируйте оценку надежности за первый год на трех- и десятилетний срок службы накопителя.

В заключение отметим, что данный метод позволяет математически обоснованно применять результаты лабораторных испытаний Seagate для оценки надежности накопителей, установленных в бытовых электронных приборах.

 

Примечания:
1 SuperSmith, Fulton Findings, WinSMITH и WinSMITH Weibull являются зарегистрированными товарными знаками фирмы Fulton Findings (1251 W. Sepulveda Blvd., #800, Torrance, CA 90502, США).
2 Abernethy, Dr. Robert B., The New Weibull handbook, Second Edition, авторское издание, 1996, глава 5.
3 Abernethy, Dr. Robert B., The New Weibull handbook, Second Edition, авторское издание, 1996, приложение D.
4 Чтобы компенсировать неопределенность оценки параметров по Weibull из-за ограниченности времени работы дисководов, можно повысить доверительный уровень при проведении испытаний RDT.
5 Nelson, Wayne, Applied Life Data Analysis, John Wiley & Sons, 1982.

В прошлый раз мы рассмотрели этапы борьбы за господство в «дисковой» подсистеме твердотельных накопителей и традиционных жестких дисков. Там же мы коротко осветили нюансы ресурса твердотельных накопителей. Сегодня мы попытаемся рассмотреть вопрос практической надежности дисков жестких. Казалось бы, несколько запоздало, но не будем забывать, что ближайшие не менее чем 10–20 (а скорее всего и гораздо больше — об этом мы еще поговорим) лет этот вид продуктов будет гарантированно доступен на рынке в массовом сегменте по причине наличия немаленьких ниш, где скоростные достижения твердотельных накопителей избыточны, а хранимые данные относительно холодны. Да и перспективные объемы жестких дисков в ближайшее время твердотельным накопителям по адекватным ценам не догнать.

Теоретизировать на этот счет можно, конечно, долго. Можно вспоминать явно неудачные решения производителей, например, с чересчур частой парковкой головок или особо громкие изделия, но основной критерий в вопросе констатирования, как мне кажется, должен быть статистически-прикладным, особенно на фоне того, что в отличие от ситуации с SSD, найти утвержденные современные стандарты выносливости для классических винтов вряд ли получится.

Вопросы классификации

Напомним, что внешне и физически современные актуальные жесткие диски бывают по форм-фактору в основном 2,5″ и 3,5″. Исполнение бывает как внутренним, так и внешним.

Ресурс современных жестких дисков

Внутри мобильных внешнеподключаемых накопителей лежат обычные 2,5-дюймовые жесткие диски, которые в большинстве случаев можно достать и подключить к ноутбуку или десктопу напрямую, если те обладают нужными интерфейсами. И наоборот — можно положить в такой карман подходящие по толщине имеющиеся диски, сделав их мобильными и внешнеподключаемыми.

В случае с 2,5 дюймами встречается толщина 12,5, 9,5, 7 и даже 5 мм. Электрически они будут совместимы, но физические размеры, как понимаем, будут отличаться. Выглядит вот так:

Ресурс современных жестких дисков

Контактные группы одинаковы, но толщина разная. 2,5-дюймовые варианты жестких дисков чаще используются в портативной технике. Чем тоньше ноутбук, тем более внимательно надо смотреть, какой толщины накопитель предусмотрел туда изготовитель. Тонкие диски в места для толстых поставить не проблема — они часто продаются с утолщителями в виде пластиковой рамки, чтобы не болтались в посадочных местах для более толстых коллег. В отсутствии рамки проложить их можно чем угодно — хоть картоном по углам. А вот более толстые затолкать в места для худых не выйдет — будьте внимательны!

Были и 1,8- и 1,3- и даже 1-дюймовые Microdrive в формате Сompact flash II — вообще левшовые практически изделия. Но это уже история, т.к. в ультракомпактном сегменте всех разогнал привычный флэш.

Ресурс современных жестких дисковРесурс современных жестких дисков

Типы интерфейсов

Интерфейсы сегодня в быту бывают SATA и все еще IDE, в профессиональном использовании есть и SAS. В вопросы параллельности и последовательности, а также понятия шин в рамках этого материала погружаться не будем.

IDE, он же АТА, они же аббревиатуры от Integrated Drive Electronics и Advanced Technology Attachment, растет корнями из 90-х и уже уходит в прошлое. Новых массовых материнских плат с ним не делают уже лет 10 наверно, но в наличном парке его еще полно. Пропускает 133 мегабайт в секунду и выглядит разъемом конкретно вот так на накопителе. Крайнее слева — питание, справа — данные. И соответственно на материнской плате. Подключается плоским шлейфом обычно серого или черного цвета. Вот таким.

Ресурс современных жестких дисков

Рассмотрели мы это чисто для исторической справки.

Мейнстримом же сегодня является SATA. Типично для 2,5- и 3,5-дюймовых решений выглядит вот так:

Ресурс современных жестких дисковРесурс современных жестких дисков

Справа контактная группа питания, слева — данных. Вид: накопители вверх дном. Между собой совместимо. Подключается как на картинке.

Ревизии и пропускные способности мы рассмотрели в прошлый раз и здесь останавливаться не будем. Отметим только, что есть разновидности типа eSATA для внешних устройств и slimline SATA для компактных внутренних. И да — SATA заточен под горячую замену, т.е. на ходу без перезагрузки. Разве что в диспетчере устройств может понадобиться нажать кнопку «обновить» в случае Windows.

Существуют переходники для питания и возможностей подключить IDE в SATA и наоборот, но мы не об этом.

SAS это Serial Attached SCSI и используется в основном в профессиональной сфере, обратно совместим с SATA и имеет пропускную способность 12–24 Гбит в секунду. Выглядит похоже на SATA, но разъемом отличается. Обороты большие — до 15000, коррекция ошибок, multipath — как «в лучших домах Парижу и ЛондОну», но дорого и в быту не воткнуть. А еще греется так, что на некоторые модели радиаторы килограммовые нужны.

Ресурс современных жестких дисков

Но вернемся к вопросу.

Проблемы технологий

Сегодняшние массовые жесткие диски находятся на излете традиционных технологических возможностей. Плотность данных на одну рабочую пластину можно увеличить только принципиально новыми технологиями, а толщину самого «блина» уменьшать для дальнейшего увеличения их числа в сборке все сложнее. Кроме того, поднимать обороты шпинделя к многотысячным высотам в теории конечно можно, но за этим должны будут успеть остальные участники забега и при этом не упираться в воздух, который в ряде линеек уже меняется на гелий. Увеличивать количество блоков головок, вспоминая прошлое, тоже неслабая инженерная задача, учитывая все изложенное. Да и пост-SCSI в виде SAS в SOHO приземлять никто не спешит, правда это дорого и по факту почти устарело морально. Но не в этом направлении, похоже, пойдет индустрия.

Если коротко, то совокупность проблем развития жестких дисков изложена в тройке взаимоисключающих параграфов, которая вполне научно называется трилеммой. Суть примерно такова — для увеличения плотности записи нужно уменьшать записываемые области на носителе и соответственно размеры головок вкупе с материалами, из которых все изготавливается, но при этом ухудшаются как магнитные свойства таких миниатюрных областей, так и возможности маленькой головки, в том числе по их стабильному разборчивому чтению. Чтобы решить последнее надо увеличивать первое, а общая задача изначально требует как раз обратного. Т.е. кольцевая.

Ресурс современных жестких дисков

Но НИОКР не стояли на месте и их результаты сконцентрировались вокруг вполне конкретных и реализуемых предложений для достижения поставленной задачи увеличения объемов жестких дисков. Часть из них еще в разработке, а что уже и рынку показывали. Основной тренд — полировка магнитных технологий подходами локального нагрева в процессе записи и создание инфраструктуры для системы в целом, с учетом новых вводных. Но среди оставшихся производителей традиционных «винтов» единства в видении перспектив нет. Т.е. направление в целом одно, а вот пути достижения вроде бы похожих целей — технически отличаются.

Термомагнитная схватка трех ёкодзун

В ближайшем будущем мы, вероятнее всего, увидим для решения трилеммы магнитной записи соединения следующих подходов. Тон будут задавать, несомненно, термомагнитные концепции. Основных сегодня известно две. Это HAMR — Heat-Assisted Magnetic Recording — запись с, в прямом смысле, подогревом! А мы помним, что по чисто физическим причинам в случае наличия подогрева намагничивать для записи бита можно меньшую площадь и делать это с меньшими энергозатратами, т.е. одновременно с достижением нужной плотности и головке легче работать и ее саму проще делать в части подбора материалов и электромагнитных характеристик. Продвигается Seagate. Тематическое видео производителя не песня, но посмотреть можно.

Ресурс современных жестких дисков

Второй подход называется MAMR — Microwave Assisted Magnetic Recording — тоже про нагрев, но иным способом, спинтронным, прости Господи, осциллятором на базе ну очень маленького аналога того, что массам понятно как микроволновая печка. Поддерживается WD и Toshiba. Видео куда более информативное и его можно глянуть по ссылке.

Ресурс современных жестких дисков

Оба подхода, как видим, по сути, про нагрев, но разными способами и второй способ совместим с гелием, а первый — не очень, т.к. сильно греть гелиевую герметичную среду лазером или подобным, это как варить сгущенку в закрытой банке. Может, конечно, какие-то принципиально новые лазерные технологии подвезут в перспективе, но пока это так.

Масленица

Следующим системным элементом эволюции HDD будут «блины потоньше». Здесь, конечно, все и так предельно тонко, но уменьшая толщину отдельного блина в типичный корпус их можно поместить больше. Даже +1 блин — это существенное увеличение общей емкости, а на фоне еще и увеличения плотности — так вообще хорошо. Один из главных черенков этого рынка Showa Denko K.K. из Японии предлагает пластины, способные нести около 2 терабайт на штуку в случае 3,5-дюймового типоразмера накопителя. Восемь блинов в сборке — реальность вчерашнего дня, в лабораториях прототипы на 12! Немцы гарантируют.

Ресурс современных жестких дисков

Почему прозрачные? Так блины бывают на основе алюминия и стекла.

Ресурс современных жестких дисков

Стекло пожестче и не менее главный черенок, но уже, в том числе, медицинского рынка — Hoya из той же Японии — уже пиарит предложения стеклянных вариантов толщиной аж до 0,38 мм! Обе иллюстрации выше — их творчество. Причем тут они? Они с оптикой хорошо работают, а под жестко-стеклянные блины для винчестеров целый дополнительный завод в Лаосе к Вьетнамскому и Таиландскому построят. Гарантирует уже Xinhua. К слову — почти весь рынок «стекла» для 2,5″ жестких дисков — за Hoya.

HELIUM

Гелий (но не вакуум, хотя и такие смельчаки есть! — в паспортах на жесткие диски максимальные высоты работы указывают именно по этой причине) станет мейнстримом, хотя и существует с 2012 года. Он менее плотный, чем воздух или азот, и в его среде сборке на высоких оборотах крутиться легче. Ну и головкам проще быстрее перемещаться. О гелии и вакууме мы еще поговорим.

Горячие головы

Головки, как проистекает из вышеизложенного и будет подтверждено ниже, будут инновационнее, меньше и их, возможно, станет больше, как у Conner Peripherals «Chinook».

Ресурс современных жестких дисков

Современное видение многоголовочности от Seagate выглядит примерно так (даже анимация есть):

Ресурс современных жестких дисков

Если картинка от Seagate основана на реальных планах и прошивки таких дисков смогут распределять данные на сборки пластин, которые работают с физически независимыми блоками головок, то фактически мы получим спарку дисков в одном корпусе с RAID 0 подобной логикой работы. В итоге скорости могут возрасти пропорционально количеству блоков головок, т.е., в данном случае, вдвое: что линейные, что 4К-блоками. Правда скорости работы с 4К на уровне 1–2 мегабайт никого не спасут, зато линейные будут вполне себе ничего для технологии и достаточные для своих ниш.

Уголок футуролога

Отдельные футурологи, правда, предсказывают возможность имплементировать в жесткие диски технологии магнитного туннелирования на базе содержащих наномагнитные вкрапления углеродных нанотрубок. Почитать можно по ссылке. Выглядит как-то вот так:

Ресурс современных жестких дисковРесурс современных жестких дисков

Ничего непонятно, но очень интересно (с). Особенно непонятно как это внедрять на практике.

А кто-то пишет про накопители на голографических технологиях и даже технологиях ДНК! Но это пока все в отдаленной перспективе даже у научников, не говоря уже о реальных образцах.

RPM

С оборотами вопрос открыт т.к. эта часть механики жесткого диска обуславливает требования к остальному тандему и способностям интерфейсов. 15 000 об/мин освоены, но насколько можно взять бОльшую высоту со стабильными результатами — пока непонятно. Тут важно понимать, что малейший дисбаланс сборки на 15000+ оборотах кончит мотор очень быстро. С другой стороны, в силу физики, скорость потока данных на внутренних и внешних частях блина при одинаковых оборотах шпинделя будет хорошо так разной. Еще неплохо бы понимать — а выдержит ли тонкий стеклянный блин или сборка из восьми таких пластин на высоких оборотах вибрацию вообще без разрушения? И это мы еще не коснулись привода головок, которому тоже неплохо бы не отставать. В общем, тут комплексная задача, как сказано, для всего тандема и обороты в ней стоят на последнем месте.

Страничка изобретательства и рационализации

Тандема… хорошее слово. Об этом даже патент от 2004 года есть.  Туда бы еще диагональных блоков независимых головок, блины намазать нанотрубками, гелий, черепицу, совместимый калорифер и будет полный стимпанк. Правда с надежностью что будет — подумать страшно.

Ресурс современных жестких дисков

Черепица = SMR

Тут самое время вспомнить про черепичную запись — технология давно в тираже, но там есть нюансы, которые не позволяют внедрять это дома. В англоязычных источниках эта дискотека известна как SMR (Shingled Magnetic Recording). Суть примерно следующая — на пластину стандартного типового физического размера записать поплотнее как можно больше дорожек. Причем тут черепица? А дорожки предлагается чтобы они частично перекрывались. Естественно, чтобы писать тонкие, как sin в армейском анекдоте про комара, дорожки надо иметь соответствующую по размеру головку, а перед этим еще технологии ее таковой сделать с нужными магнитными характеристиками. Но вот совсем микроскопические головки индивидуально делать тяжело, зато записать сразу несколько дорожек — можно. Условно соотношение обычной традиционной дорожки на пластине жесткого диска и дорожки в случае технологии черепичной записи можно визуализировать так (здесь и далее используем инфографику, любезно опубликованную, Microsemi):

Ресурс современных жестких дисков

Синим — пишущая головка и традиционная дорожка, зеленым — ширина ридера инновационных дорожек. Почему нарисована одна дорожка — смотрим ниже т.к. это же одновременно и ключевой косяк затеи.

Вот так условно выглядит записанное. Именно условно, т.к. на практике там начинается почти черная магия для рядового потребителя, и мы тешимся самоуспокоением, что, типа, знаем как оно устроено. Привет вам, мистер Кларк.

Ресурс современных жестких дисков

В общем, головка вспахивает, т.е. намагничивает сразу несколько дорожек. И вроде все достаточно понятно, но все равно имеется проблема. В силу физических особенностей технологии эту прелесть удобно использовать только для последовательной записи т.к…. перезаписать дорожки выборочно и поштучно, внезапно, нельзя. Точнее можно, но для случайной записи там будет серьезное усложнение процедуры, с которым разберемся внимательней. Т.е. в принципе можно, но ходом — нельзя.

Ресурс современных жестких дисков

Итак, записанное в несколько дорожек головка SMR диска и сотрет аналогично — т.е. коллективно, т.к. записывающая головка — она же стирающая. Такой себе комбайн с широким столом.

Выглядит вот так и по версии когда-то еще Hitachi — ниже.

Ресурс современных жестких дисков

Т.е. чтобы записать оранжевый фрагмент надо физически перезаписать дорожки в ширину пишущей головки в обязательном порядке. Чтобы выполнить задачу надо считать фрагмент, где-то на уровне какого-нибудь DRAM буфера разложить его на нужное и ненужное. Присовокупить к нужному новый участок данных. Собрать до кучи и отослать через головку на место для кучной записи. Будет хорошо, если новый фрагмент в целом виде меньше стираемого. Если нет, то дописывать придется фрагментарно (что вызовет проблемы, о которых ниже) или в идеале в место после физического конца данных на таком диске. Чисто в теории контроллер может поискать, где там есть свободные места, но в реальности это вызовет системный паралич. Конечно, МСМК по комбинаторике сейчас не понимают в чем проблема. Но ее с математической точки зрения и не будет — логически это все несложно. А вот провернуть затею на конкретном электро-механическом уровне займет физическое время и расчетные ресурсы плюс возможные издержки на коррекцию ошибок. Т.е. на случайной записи «вертерство» будет еще похлеще обычного HDD. Seagate произвел тестирование накопителя Archive 8TB на SATA3 на Debian. Результат случайной записи выглядит примерно так:

Ресурс современных жестких дисков

Леденящий душу пик провала до лютых 3! (именно три, 1+1+1 шт.) IOPS мы видим после исчерпания буферов на нагрузке случайной записи с глубиной очереди 1, правда, более чем через минуту, что несколько снижает уровень драматизма, но и верхние пики объективно не фонтан.

Если же просто стирать случайные данные (считали, убрали ненужное, записали назад нужный остаток), то получаются проплешины, которые для нормальной записи в будущем надо обрабатывать и уплотнять процессом, похожим на дефрагментацию и фоново. Это очень похоже на TRIM в SSD — и там и тут надо подготовить поле для прямой записи в возможную ширину без дополнительных телодвижений в процессе, но в силу механической природы жёсткого диска быстро это сделать не получится, да и общая нагрузка сильно возрастет — такой себе аналог усиления записи. В идеале вообще все уплотнить так, чтобы писать новое в физический конец имеющегося, но это связано с физической же обработкой больших массивов данных со всеми вытекающими. Состояние диска, когда новая запись идет в чистое пространство вообще или в чистое подготовленное после уплотнения и сбора мусора пространство, иногда называют FOB — fresh out of box или новый из коробки — и это, по сути, идеальные условия для такого рода записи. Просматривается некоторая аналогия с SSD.

Картина требовала обработки напильником и именно поэтому таким дискам добавили для транзитно-буферных целей обычные области, работающие по принципу одной дорожки на всю ширину головки. Т.е. обычная технология традиционных накопителей. По логической сути это аналог SLC-кэширования в твердотельных накопителях TLC и QLC, только в нашем варианте там может храниться еще и служебная информация о том, что и где удалено и прочее. Для еще более действенного решения вопроса и DRAM-буферизацию подвезли. Добавили математики в прошивку и стало более-менее — т.е. пока буфер превышает типичное среднее задание, тормозов системой особо не ощущается, диск не «боттлнечит». Именно это и видно на иллюстрации вверху. В том случае накопитель мог иметь аж 256 мегабайт буфера, но конкретная протестированная модификация, к сожалению, указана не была. Общая характеристика «железки» по ссылке и думается, что производитель тестировал все же максимальную конфигурацию.

Естественно есть и иные ухищрения для решения описанных проблем, логический зонинг, ленточная организация и тому подобное, вплоть до модифицированных прошивок под конкретные задачи! Но в силу основной их проблемы — физической первопричины, такие подходы лишь сглаживают углы.

Все указанное недвусмысленно намекает, что, несмотря на взрослые объемы хранения SMR-накопителей, они, ввиду технологии, являются нишевыми для конкретных типов нагрузок, но в этих нишах они выступают как раз целевым образом. Например — линейная многопоточная запись-чтение без или с минимумом случайных операций. Хорошим вариантом будет дата-центр, ориентированный на чтение не сильно горячих данных. К слову, если на массиве таких дисков будет размещена база какой-нибудь социальной сети, то догадайтесь с 3 раз, будет ли кто-то реально удалять из массива случайные, скажем, фотографии, если пользователь нажмет «удалить» в профиле? Или такие фото просто перестанут отображаться пользователям, но физически останутся в массиве доступными администрации на фоне перспектив падения производительности от связанных с этим дискодвижений? Проще подвезти полуторку дополнительных дисков, чем тормозить массив случайными операциями с последующим уплотнением данных. Выражаясь более приземленно — такой дата-центр будет почти что центром однократной записи. Отчасти именно поэтому из интернета ничего нельзя удалить полностью — в ряде случаев это фактически неудобно делать, а с учетом текущих цен на растущие в объемах накопители и отсутствие наводнений с пожарами на заводах по производству HDD — вообще экономически нецелесообразно. Другим хорошим нишевым сегментом будет потоковое архивирование, например, камер наблюдения, аудиовизуальных эфиров, архивирование критических данных, которые не надо перезаписывать часто и случайно.

Минутка конспирологии

Если пофантазировать, то удобно на такой массив записать месячишко разговоров всех пользователей условного оператора мобильной связи, далее в транзитной области с помощью технологий, которые уже давно не только не секретны, а еще и обкатаны by google on youtube, например, перевести это все в txt для удобного поиска или анализа по ключевым словам и аккуратненько сложить в свободную часть массива. Исходники можно смело тереть целиком, обеспечивая FOB-запись следующего месяца. А можно и не тереть! Тогда родина будет не только слышать, знать, но и очень хорошо помнить! Доклад окончен, тов. полковник, т.е. это все, конечно же, художественный вымысел и любые совпадения с реально существующими технологиями случайны.

И зачем парнокопытным меховые музыкальные инструменты?

В итоге накопители с черепичной записью надо использовать «с поправкой на силу ветра и температуру ствола». Этим занимаются по ситуации вполне железные костыли типа HBA, которые отвечают за конкретную I/O-логику работы с таким накопителями, исполняя спецнаборы команд. В RAID такие накопители тоже можно и нужно собирать, правда, понимая специфику, но это не тема настоящего материала — главное, что вы теперь знаете немного больше вообще. Желающие могут копнуть глубже по запросу DM (самостоятельные по логике работы накопители), HA (поддержка хостом) и НМ (управляемые хостом) SMR, но столкнуться с этим SOHO-пользователю придется сильно вряд ли.

TDMR как предтеча термомагнитного будущего

Отдельно надо упомянуть, что существует и даже начала продаваться технология TDMR — Two Dimensional Magnetic Recording в форме 14 ТБ изделий от Seagate. Здесь пытаются решать трилемму в лоб — уменьшая ширину дорожек и размеры записывающей головки. Недостижимый идеал — 1 бит на магнитное зерно. Выглядит как-то так и пояснений в Cети, что удивительно, не так уж и много.

Ресурс современных жестких дисков

Правда с чтением выходит фигня, которую, в свою очередь, решают головкой с несколькими читающими элементами — улучшается надежность чтения с соседних дорожек и в целом сигнал получается разборчивее. Пишущая головка продолжает быть одна. В общем итоге внедрения технологии немного растет плотность записи — процентов на 10. Но важно не это. Многоголовочное чтение пластины за проход несколькими ридерами очевидно станет мейнстримом по причине необходимости для нормального извлечения плотно записанных данных. Хороший задел, но растет сложность взаимного расположения элементов, точность их исполнения и позиционирования в работе, требуется стабильность показателей во времени.

В любом случае, именно этот этап был критически нужен перед внедрением вышеописанных тепловых инноваций, т.к. своим следствием последние будут иметь именно проблемы мелкого чтения, которые и решены превентивно в TDMR. По крайней мере, начали решаться на практике.

Ресурс современных жестких дисков

Очень интересно о TDMR по достаточно старой, но одной из наиболее полных по теории вопроса ссылке.

Но, возможно, скорости перспективных жестких дисков будут вопросом вторичным — об этом мы еще поговорим. Первичным будет объем и… сохранение надежности.

Моторесурс HDD и пласты залегания информации о нем

Пределы механической надежности жестких дисков можно попытаться практически изучить уже сегодня, предположив, что качество изготовления компонентов как минимум в перспективе не снизится, а новые технологии не повторят судьбу 3D и прочих рыночных фейлов. Однако спрашивать об этом производителей это как выяснять вкус меда у пчел и тонкости борьбы с коррупцией у госслужащих. Поэтому мы пойдем другой дорогой и попробуем провести что-то вроде OSINT — Open Source Intelligence, т.е. разведку проблемы по открытым источникам.

Из более-менее солидных внешне публикаций по данному вопросу можно выделить три с кусочком. Это обобщённые отчеты из Carnegie Mellon University и Google. Также навстречу нашей идее, по удачному стечению обстоятельств, движется политика публичности сетевого оператора хранения данных Backblaze.com. Компания по состоянию на 2019 год располагает почти 125 тысячами жестких дисков с пробегом почти 105 млн. диско-часов и любезно публикует статистику по надежности. Важно и то, что Backblaze.com использует в своих системах, по сути, потребительские накопители (они ощутимо дешевле), которым не положено работать круглосуточно и круглонедельно — тем интереснее статистика для изучения.

Некогда компания задалась вопросом о том, а как вообще подходить к вопросу понятия надежности жестких дисков. К 2013 году была опубликована более-менее предметная статистика по этому поводу. Если коротко, то компания отчиталась, что за 4-летний пробег основного парка из тогда еще 25 000 накопителей из строя вышло 22% дисков. 78% при этом успешно продолжали крутиться. Хорошо это или плохо? Ответ на этот вопрос займет некоторое время.

146%?

Начнем с того, что по мнению Backblaze.com 100% показатель отказов это далеко не самый плохой из возможных показателей. Считают они вот как: если сферический поставщик жестких дисков в вакууме поставит вам сотню абсолютно надежных в течение полугода накопителей, а затем они хором разово и одновременно крякнут, а вам надо чтобы они работали, то придется в течение года заменить каждый дважды. Т.е. заменить надо будет 200 дисков в год и тогда ежегодный показатель отказов составит 200%. А если каждый такой условный диск проработает всего час, то по году показатель отказов составит 876000%. «Однако!» — как говаривал К. Воробьянинов, помахав рукой преподавателям статистики.

Шторм и штиль в ванне

Инженеры по надежности в своей работе используют ванноподобную кривую для иллюстрации ожидаемых уровней отказов. Считается, что отказы проистекают из трех основных факторов:

  • производственных дефектов, в результате которых имеет место явление, которое известно как «детские болезни» — в этом случае количество дефектов снижается;
  • случайных неисправностей — величина более-менее постоянная;
  • износа — количество отказов растет по понятным (кому?) причинам.

Собранные на графике «уровень отказов/время» эти факторы образуют три участка, формирующие нечто, напоминающее ванну. Отсюда и название.

Ресурс современных жестких дисков

В свою очередь Backblaze.com подтверждает эту теорию цифрами, сообщая, что на 4-х летнем отрезке времени первые полтора года годовой показатель отказов колеблется в районе 5%, потом снижается на некоторое время и потом, в районе 3-летней отметки, достаточно серьезно начинает расти. Вывод — 3 года является некоей условной точкой, когда начинает сказываться износ. С износом не все однозначно, но пока мы этого не касаемся.

Рассмотрим график от Backblaze.com.

Ресурс современных жестких дисков

Бытовуха

Мы помним, что хлопцы крутят бытовые диски круглосуточно и попытаемся перевести все это в более понятные временные отрезки. Учитывая, что большинство офисно-домашних ПК работают в среднем часов по 8 в сутки, то практический срок начала существенного влияния износа на надежность для них можно условно отодвинуть к 9 годам. Почему условно? Потому как при домашне-офисной работе диски включаются-выключаются, имеют внешние воздействия в виде непостоянной температуры и т.п. Но показатель в 26000 часов работы, как некоего порога условной надежности — вполне статистически достоверный ориентир. Важно так же понять, что в данном случае к 4-му году рабочими в режиме 24/7 подошли почти 80% потребительских дисков, которые изначально в таком режиме производителем использовать и не предполагалось — для дата-центров предлагаются несколько иные решения по несколько иным же ценам. Именно поэтому мы и имеем возможность изучить статистику смелых, взявших на себя риски вложиться в бизнес на непредназначенных для этого изначально «железках».

Ресурс современных жестких дисков

Крякнут все?

В какой-то момент времени ожидаемо откажут все 100% накопителей, но когда это произойдет — ответить сложно и прямой статистики найти не получится, т.к. никто в сфере хранения данных в здравом уме и трезвой памяти не будет рисковать клиентскими данными ради ачивок, хотя там все и избыточно, и даже «тихим ошибкам» проскочить не суждено (Тихие — в смысле, что данные в теории могут быть записаны с ошибкой, но вскроется это только со временем. В дата-центрах это почти нереально по причине постоянных сверок контрольных сумм и коррекции ошибок, а вот в SOHO полно накопителей, которые числятся нормальными, а по факту могут быть очень не очень. Самый смак, когда на такие пишут бэкапы, которые заведомо не поднимутся, но вылезет боком это только в самый важный момент, что только добавит угара факту обнаружения).

Интересно также, что показать статистику по полным ресурсным испытаниям вплоть до полного выхода серии накопителей из строя компания не может и по объективным причинам — накопители устаревают морально быстрее. Так уже в 2015 году однотерабайтных жестких дисков в основном парке Backblaze.com не осталось, начался отказ и от 2-терабйтников. При этом для последних от тогда еще HGST оглашен кумулятивный показатель отказов в 1,55% в среднем на пятилетнем пробеге!

С 3-терабайтниками картина похожая, но к концу 2015-го из эксплуатации были выведены диски Seagate и приведенная статистика сильно намекает, что в модели ST3000DM001 были некоторые нюансы дизайна, материалов или сборки, т.к. кумулятивный показатель отказа по модели составил 28,3% за 2 года при максимальном количестве в парке в 4074 единицы. Увидеть бы разбор ситуации производителем. При этом HGST на большем количестве имел показатель отказов в 0,8%.

Ресурс современных жестких дисков

К концу 2015 года три четверти парка компании составили уже накопители на 4 TБ. Т.е. обновление парка шло достаточно быстро, пока предлагаемые рынку объемы накопителей росли.

В мире животных

Отвлекаясь немного в сторону, чтобы проиллюстрировать незримую связь бездушной техники с живой природой, отметим, что после аварии на ЧАЭС, которую героически ликвидировало население той страны под локальным руководством УС-605, где за отдельные оперативно-инженерные решения отмечены почти невиданные ранее случаи награждения одновременно внеочередными званиями и орденами (военные оценят значимость такого факта: чтобы одновременно и орден и звание) в Чернобыльской зоне де-факто сформировался природный заповедник. Изначально считалось, что живая природа, в частности фауна, на территории зоны отчуждения понесла невосполнимые утраты, но по наблюдениям через 10–15 лет оказалось, что в зоне, ввиду ее обособленности, фауна как раз наоборот — разрослась вплоть до наличия краснокнижных животных. В дальнейшем исследования показали, что хоть животные и живут в радиационно загрязнённой среде, тем не менее чувствуют себя вполне неплохо — размножаются и расширяют ареалы. Внешне складывалось впечатление, что радиация никак на них не влияет, но анализы показывали обратное. В то же время растиражированные образы ужасных чудовищ по лесам не бегали и сталкеров не кусали. Разгадка оказалась достаточно Дарвиновской — за свой естественный жизненный цикл дикие животные не успевали столкнуться с отдаленными последствиями воздействия радиации (хищная правда в том, что редкое животное в дикой природе доживает до старости и умирает по естественным причинам ввиду влияния фактора пищевых цепочек), а физически неполноценные не проходят естественный отбор в детстве. Поэтому стороннему наблюдателю кажется, что все хорошо, но на самом деле это не совсем так. Та же картина в нашем дата-центре – ввиду роста предлагаемых объемов накопителей поколения достаточно интенсивно меняются даже до наступления факторов заключительного сегмента ванноподобной кривой. Кстати, сама ванноподобная кривая, как видно из нашего отвлечения, неплохо ложится и на дикую природу с некоторым оговорками. Но вернемся к проблеме.

Мыши плакали, кололись, но продолжали есть кактус?

Поломки тоже были вполне реальной причиной вывода накопителей из эксплуатации. Антилидером рейтинга поломок оказалась опять же Seagate, но и самих дисков от них в абсолютных цифрах больше.

Ресурс современных жестких дисков

Мыши плакали, кололись, но продолжали есть кактус? Взаимоисключающие параграфы детектед? И да и нет. В Backblaze.com сообщают, что, несмотря на указанную статистику, уже в сегменте 4 ТБ накопителей уровень отказов оказался очень неплохим в среднем по больнице и выглядел так:

Ресурс современных жестких дисков

Продукты Seagate оказались предпочтительней по двум причинам:

  • Они были дешевле. И на этом, в общем-то, можно ставить точку. Цена — главный критерий рынка. Но мы продолжим.
  • Статистически достоверно было установлено, что SMART-показатели хорошо предсказывали выход устройств Seagate из строя. В общем-то, второе, возможно, даже важнее первого, т.к. предсказуемость поломок является большим плюсом в вопросе надежности в целом.

Напомним, что S.M.A.R.T. это относительно стандартизированная внутренняя система самодиагностики накопителей. Относительно, т.к. разные диски фиксируют неодинаковый набор типовых показателей в рамках этой самодиагностики, а отдельные пункты так вообще являются ноу-хау производителя, но основной их перечень более-менее стабилен и понятен. Читается разным ПО, например CrystalDiskInfo. Понимая суть этих показателей можно примерно оценить состояние накопителя. Это касается как HDD, так и SDD с учетом специфики устройства обоих.

Типичный возврат показателей S.M.A.R.T. самодиагностики программой по ссылке выглядит так, для тех, кто не в курсе.

Ресурс современных жестких дисков

Тут стоит заметить, что именно подразумевается под поломкой жесткого диска. Backblaze.com классифицирует эти события так:

  • Накопитель не раскручивается либо не подключается к ОС.
  • Накопитель не синхронизируется с RAID или отваливается от него.
  • SMART намекает на проблемы.

О последнем детальнее. Показателей много, но важными назначили пять:

  • SMART 5 — Reallocated_Sector_Count.
  • SMART 187 — Reported_Uncorrectable_Errors.
  • SMART 188 — Command_Timeout.
  • SMART 197 — Current_Pending_Sector_Count.
  • SMART 198 — Offline_Uncorrectable.

Например, как только 187 показатель — неисправимые ошибки — сдвигается с 0, компания планирует накопитель к замене. Так же сообщается, что пока данный показатель равен 0 накопители выходят из строя крайне редко. Статистика на иллюстрации, про 280% отказов описано выше.

Ресурс современных жестких дисков

Т.е. прогнозируемость отказа — чуть ли не ключевое преимущество в сфере работы с данными, что, в общем-то и понятно. Мы же с вами помним, что нечто аналогичное можно проследить и в среде твердотельных накопителей, правда там отказы происходят немного внезапнее и безвозвратнее. Ну и пока дороже в финансовом плане, чем в случае жестких дисков.

Небольшое отступление для внимательных

В вышеприведенном типичном SMART-отчете вроде не видно никаких указанных мною 187,188,197,198. На самом деле видно, но в графе ID эти идентификаторы представлены в hex т.е. шестнадцатеричной системе исчисления, где помимо цифр 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 используются еще и латинские буквы A, B, C, D, E, F. Т.е. для перевода цифр надо помнить, что в hex  A это 10, B это 11; C это 12; D это 13; E это 14 и F это 15 в десятичном понимании, именуемом dec. Можно не париться, а поискать hex2dec конвертер или наоборот и из горы онлайн-ссылок выбрать любую. Так мы узнаем, что наш 187 показатель это шестнадцатеричное BB.

В моем типичном примере этот показатель уже отличен от 0 и равен 1, что говорит о том, что диск, в общем-то, уже не колокольчик и надо подумывать о замене всего-то на 9000 часах. Но это ноутбук и соответствующая эксплуатация — так что такое можно увидеть и на 1 часе после падения со стола. С другой стороны, в таком виде он открутит еще тысяч 20 часов и не закашляет. Не увидь я эти данные, а многие могут их не увидеть вообще никогда, то и не забивал бы себе голову. Это и есть одна из форм той самой тихой ошибки, о которой выше. Их может быть много, но с ними можно и не столкнуться. Доверять критические данные без резервного хранения таким дискам, конечно, не стоит, но по факту это делают миллионы людей ежедневно, так что иногда мониторить SMART все же имеет смысл.

He2 (т.к. просто Неlium был выше)

Но двинемся по статистике дальше. 4 ТБ накопители в целом оказались существенно надежнее 3 ТБ предшественников даже в рамках одного производителя. Так «трешки» от Seagate в первый год показывали 9,3% годовых отказов, а четверки — всего 2,6%.

Однако объемы растут и скоро и этот парк уйдет в прошлое целиком, т.к. на марше у нас 8-ки, 10-ки и даже 12-ки! Однако здесь не все так однозначно. Дело в том, что в этом сегменте уже идет внедрение новых технологий в массовое производство. Мы помним, что воздух, состоящий в основном из азота и в потоке которого парят головки над блинами жестких дисков, сильно плотный для современных решений и физически является препятствием росту объемов и скоростей. Поэтому в новых моделях используют менее плотных гелий, т.к. газовая среда в гермоблоке необходима — в вакууме механика жесткого диска по традиционной модели работать не будет, головки в прямом смысле слова нуждаются в газовой среде. Такие себе экранопланы.

Вокруг гелия идут дискуссии. Некоторые считают, что обеспечить абсолютную герметичность внутри и исключить утечку гелия в массовых изделиях не удастся, что неминуемо приведет к отказам т.к. внутренняя механика таких накопителей заточена под менее плотную, чем воздух, среду. Теоретически это заявление, в общем-то, обосновано, но все будет зависеть от конкретных производственных возможностей по реальной герметизации массовых товарных накопителей, т.е. заявку эту можно подтвердить или опровергнуть только временем, а пока у нас есть статистика для изучения.

Ресурс современных жестких дисков

И эта статистика говорит, что текущие 8-терабайтники на воздухе не особо и отличаются показателем отказов от вариантов на гелии. Более того 8/10/12-терабайтники на гелии в целом показывают неплохую массовую статистику. Серия из 16800 штук на 12 ТБ от Seagate на более чем полутора миллионах диско-часов имеет годовой  показатель отказа чуть более 1%. Да и вообще большие диски получились пока статистически очень неплохими.

Средняя температура по больнице

Самое время посмотреть общую статистику от Backblaze.com. Это конечно не рынок в целом, но почти 107 000 накопителей, круглосуточно работающих под нагрузкой, дают основания делать хотя бы приблизительные и статистически вроде бы относительно натягиваемые на бытового или SOHO-пользователя выводы.

По актуальным моделям картина выглядит так:

Ресурс современных жестких дисков

Как видим для 45 млн. диско-дней годовой показатель отказов для 4-терабайтного Seagate составил менее 3%, т.е. при выборке из почти 35000 накопителей, которые постоянно нагружены работой, в год из строя выйдет менее 3 единиц. Примечательно, что средний пробег по этим цифрам составил примерно 3,5 года.

Промежуточные итоги

Важными выводами, которые делают из своей статистики Backblaze.com являются следующие:

  • Для современных жестких дисков потребительского класса, нагруженных круглосуточно, порог роста числа отказов по износу приходится на 4 года.
  • Выход из строя таких дисков — явление неплохо прогнозируемое по SMART.
  • 1+2 для случая массива RAID дают хорошие гарантии того, что данные, хранящиеся таким образом на потребительских накопителях, делают это вполне надёжно при адекватном мониторинге ситуации.

Главным следствием из изложенного, вероятно, является тот факт, что в реальном SOHO с похожими нагрузками накопители встретятся нечасто, но там будут иные нюансы. Конечно, кто-то может сделать аналог домашнего дата-центра из старого сервера HP и подкинуть туда архив p2p-файлообмена, но даже в таком случае достичь нагрузок, аналогичных тем, что испытывают носители в Backblaze.com, можно будет далеко не всегда и уж точно не постоянно. В связи с этим срок полезной работы жесткого диска в домашне-офисных условиях вероятнее всего окажется больше, нежели описанные 4 года, особенно учитывая, что это только порог увеличения отказов по износу, а не момент, когда все диски выйдут из строя. Т.е. в реальности году к 5–6, если экстраполировать, где-то половина стартовавших одновременно накопителей будет жива. Но проводить эксперимент по долголетию с клиентскими данными на борту, как мы помним, никто не будет, и по показаниям SMART отклонившиеся от генеральной линии партии накопители будут заменены новыми, но к тому времени уже аппаратно иными участниками соревнований.

Ресурс современных жестких дисков

Some Like It Hot

К аналогичным выводам пришли ученые из Carnegie Mellon University. В частности, они отмечают, что в периоде после 5 лет эксплуатации необходимость замены носителей в крупных инсталляциях возрастает.

А вот ребята из Google установили, что влияние факторов температуры и нагрузки на выход дисков из строя несколько преувеличены и статистически заметны только для возрастных накопителей — т.е. после 5 лет, что несколько неожиданно и для них самих, т.к. ожидалось обратное.

Данные в части температурного режима выглядят так — максимальные проблемы у горячих дисков на 3 году работы. А мы пока заметим, что пик пришелся на более, чем 45 градусов.

Ресурс современных жестких дисков

Они же сообщают, что особой разницы в случае анализа потребительских и корпоративно-профессиональных накопителей не наблюдают. Последнее, в общем-то, ожидаемо на фоне вышеизложенного. Тем не менее, для 5-летних дисков показатель выхода из строя для выборки с большой нагрузкой и маленькой отличается вдвое — около 4 и 2 %, что в абсолютном выражении не катастрофично. Для новых дисков эти показатели соответственно находятся на уровнях 10 и 4 % с некоторым разбросом, т.е. можно предположить, что под нагрузкой лучше и раньше проявляются производственно-инженерные дефекты и проблемы комплектующих.

Ресурс современных жестких дисков

По вопросам отсутствия корреляции показателей температуры и отказов Backblaze.com в целом солидарны с предыдущим докладчиком, опираясь на статистику по 34 000 накопителям. Наличие такой связи проявляется лишь на отдельных конкретных моделях, например, Seagate ST31500541AS. Для него диаграмма выглядит так:

Ресурс современных жестких дисков

Для большинства же моделей жестких дисков такой связи не прослеживается. Детальнее цифры можно посмотреть по ссылке.

Например, по выборке Hitachi HDS722020ALA330 картина следующая и она, вероятно, обусловлена даже не столько конструктивными моментам, а конкретными условиями производства самой модели. Правда стоит отметить, что в случае с дата-центром особо нагреваться дискам никто не дает. Температурный режим и вентиляция там несравнимо получше, чем в типовом напольном мидлтауере с горой пыли внутри. Запомним этот момент, он нам еще пригодится.

Ресурс современных жестких дисков

И чё, и чё?

В целом три исследования практически промышленной эксплуатации жестких дисков показывают, что при постоянной нагрузке срок полезного их использования составляет примерно до 5 лет или 43800 часов. Не каждый диск в SOHO доживет до столь почтенного пробега. С другой стороны, эта статистика совершенно не значит, что не будет экземпляров, которые бы не прожили значительно дольше, например, тысяч 100. Но таковыми будут явно не все и в домашних условиях по первому чиху накопитель мало кто, в отличие от дата-центра, меняет. Поэтому отдельные «винты» даже с бэдами будут уверенно крутиться до победного, т.е. полного конца. В ряде случаев пользователи даже не будут подозревать о фактическом состоянии накопителя. Про «тихие ошибки» написано выше.

При этом важно, что производственные дефекты проявятся, скорее всего, на ранних сроках, покрываемых гарантией, после чего кондиционный диск открутит положенное.

Занимательно, но гарантия на некоторые твердотельные накопители, например, от Intel, тоже составляет 5 лет, Crucial также предлагает 5 летнюю гарантию и WD тоже. В случае с твердотельными накопителями понятие гарантии еще оперирует циклами перезаписи, но в общем случае условный пользователь имеет все шансы за 5 лет их не выработать.

В случае же обычных жестких дисков количество циклов записи-стирания условно считается неограниченным и механика деградирует заведомо раньше магнетизма (правда детально причины почему-то никто не поясняет, но пользователем достаточно этой расплывчатой формулировки — они, типа, поняли), т.е. внимание на это обращать смысла никакого нет, а вот на SMART — есть.

Что касается жестких дисков, то ожидать увеличения срока их полезного использования можно было бы, но не стоит.

Можно было бы потому, что совершенствуются технологии изготовления компонентов, разрабатываются новые материалы и технологические процессы их обработки, сборки изделий. Задавшись целью произвести надежный во времени жесткий диск реализовать такую цель технической проблемы сегодня не составляет, особенно если не гнаться за скоростями.

А не стоит, поскольку это никому среди производителей особо-то и не нужно. Ввиду взрывного роста генерации объемов данных человечеством (причем в основном бизнесом в части big data) актуальным выглядит вопрос скорее расширения объемов хранения, в т.ч. на единицу площади, а надежность можно перекрыть избыточностью и заменой накопителей в массивах — это быстрее, дешевле и проще, нежели создавать абсолютно надежный накопитель, который устареет морально быстрее, чем физически. Действительно, какой практический и массовый толк от работающего древнего накопителя на 2 ГБ сегодня? Еще и производители главного «железа» задают SOHO тон ежегодными сменами платформ, где новыми системными накопителями будут твердотельные, а бэкапы сольются в корпоративные облака, где проблемы технологий хранения клиентов на местах вообще не интересуют (по крайней мере, пока не прилетят черные лебеди в виде пары падений крупных облачных операторов)? Привет сюжету именно фильма, а не книги «Бойцовский клуб» — там есть релевантное.

Локальные же холодные данные можно хранить и на собственном жестком диске(ах) — они стоят сегодня беспрецедентно недорого и в случае RAID все вполне надежно, да и устареет по объему все скорее всего быстрее, чем износится, особенно в случае креативно-архивного использования.

В общем, производители 3–5 летнюю (WD Black для НЖМД) гарантию берут не с потолка и танцуют вокруг именно этой цифры, хотя на практике большинство накопителей в домашних и околопрофессиональных условиях ее перешагнет. Почему положение дел именно такое — пояснено выше: на подходе новые технологии и повышать выносливость старых никто не будет, а вот что покажут инновации — увидим уже совсем скоро.

В любом случае списывать со счетов даже текущие технологически диски еще рано и об этом наш следующий материал.

Но, one more thing, как говорят любители фруктов

Внимательный читатель уже задается вопросом — где же технические первопричины описанного, Билли? Не втирают ли нам какую-то дичь? Так много слов о ресурсе, износе и прочем, а по факту никакого технического матана! Что же изнашивается? Как это происходит?

Ресурс современных жестких дисков

Их есть (с), но придется несколько расширить рамки публикации. Данные опять же из открытых источников — у нас же OSINT! И в этот раз мы смотрим на точку зрения одного из трех оставшихся китов, на которых стоит рынок HDD — WD.

Коротко вспомним, что такое жесткий диск — это устройство хранения данных, основанное на магнетизме. В литой и фрезерованный корпус (шасси) помещается сборка рабочих твердых магнитных дисков, которые крутит электромотор. Над и между пластинами бегают пишущие и читающие головки на длинных коромыслах, чтобы охватить весь радиус блина. Рабочее пространство закрывается крышкой — там «чистое» в плане пыли пространство. Есть еще плата управления, шлейфы и разъем интерфейса снаружи. На плате будет электроника в виде контроллера, DRAM-буфера и т.п.

Ресурс современных жестких дисков

На картинке негерметичный пример. Для герметичного в случае, например, гелия принципиальнее отличия конструкции только в газообмене ну и тонкости элементов.

Итак — самый жир

WD нам сообщает, что около 70% всех проблем жестких дисков — это проблемы зазора головок и блинов. При его нарушении происходит контакт с неблагоприятными последствиями.

Ресурс современных жестких дисков

Сегодняшние зазоры — менее 2 нанометров! И секретный инсайд из WD постулирует, что, экстраполируя это на реальным мир, мы получим полет на самолете через все США на высоте 1 м с неравномерностью территории +/– 4 см. Не впилиться бы в секвойю, но их в нашем макроаналоге не предусмотрено. Именно поэтому жесткие диски боятся ударов.

Ботающие на английском увидели слово lubricant. Оказывается (и я гарантирую, что многие не знали), на блине жесткого диска есть монослой смазки для снижения адгезии и трения между головками и диском. Поднятие лубриканта слайдером — явление целиком нормальное в своих масштабах, но «глубоко» копать категорически нельзя, ибо будут в прямом смысле запилы рабочей поверхности.

Ресурс современных жестких дисков

Дело в том, что физические характеристики мономолекулярных пленок зависят от фактического количества материала и последствия копки могут быть отложенными.

Ресурс современных жестких дисков

Помните про магию и самоуспокоение — теперь по ходу материала вы начинаете знать еще немного больше.

Ресурс современных жестких дисков

Но мы продолжим. На головках и блинах используется покрытие из алмазоподобного углерода (химики намекают, что алмаз и есть углерод, но алмаз — форма, обуславливающая эксплуатационные характеристики). Сегодняшние толщины покрытий — чуть ли не менее нанометров. В случае утончения начинается рост рисков запилов, износа и даже миграции (!) магнитного материала. Если копать дальше, то мы уйдем в трибологию, что, в общем-то, очевидно. О трибологических аспектах в контексте головок и блинов жестких дисков почитать можно по ссылке.

В общем, тема поддержания достаточного просвета пары пластина-головки является чуть ли не главной в вопросах надежности современных жестких дисков. Множество факторов, на нее влияющих приведено на иллюстрации ниже:

Ресурс современных жестких дисков

HDI расшифровывается как HEAD-DISK INTERACTION.

Правда красиво? Все это иллюстрирует тезис о том, что новые поколения жестких дисков, ввиду усложнения, будут подвержены новым, возможно неизвестным сегодня, рискам. Инженерам действительно непросто — рынок требует бОльших объемов дата-центров. И объемы по вменяемым ценам сегодня могут дать только старые (старые ли уже?) добрые (точно не злые) жесткие (об этом в первой части) диски (внешне, правда, прямоугольные). Важно понимать, что вопросы надежности являются объектом процесса моделирования на стадии разработки и модели эти эволюционируют вместе с индустрией — иного выхода нет, иначе рынок покажет производителю филейную часть. Поэтому же в ванноподобной кривой из начала материала всегда будет первый сегмент, ответственный за т.н. «детские болезни».

Ресурс современных жестких дисков

О ванной за пределами IT

Первый сегмент формируется косяками в вопросах качества, материалов, ошибками инжиниринга (привет некоторым моторам группы VAG и BMW, например), а также проблемами самого производства как процесса.

Немного окинем взором мировые мемы по теме. Вначале 2000-х потребители продукции АвтоВАЗа столкнулись с проблемой вибрации руля на скорости 110 км/ч. Проблема не решалась — лучшие балансировочные станки выводили колеса в идеальный баланс, но в руль все равно било. В итоге население экспериментально установило, что если, внимание, отбалансировать колесо прямо на ступице, то проблема исчезала. Называлось это финишной балансировокой и стоило дорого, при смене колеса делать приходилось заново. Письма производителю ожидаемо не дали никакого результата, и народ вошел в исследовательскую фазу. А ларчик открывался просто — на конвейер закупили колесные диски, где диаметр центрального отверстия на 1,5 мм был больше посадочного места на ступице. На шиномонтажах колесо прикручивали со смещением, что и вызывало биение в руль идеально отбалансированного колеса. По этой же причине балансировка на ступице проблему решала, но прошли месяцы и чуть ли не годы, пока производитель прокрастинировал, а народ ломал головы. Проблему, кстати, решили сами пользователи, а не завод. Мучения c ранним двухдисковым сцеплением от VAG и радости владельцев 5-литровых V8 от BMW, употребляющих масло ведрами, вначале 2000-х — тема отдельная. Так что не только Аpple умеет накосячить с антенной, кнопками, экранами и держать покерфейс, а тут — какие-то копеечные диски.

По этим же причинам у кривой есть замыкающая часть (хотел написать — последняя, но вдруг нас читают парашютисты, КВСы, штурманы дальнего хождения и иже с ними) и, как мы слегка подсмотрели, там есть чему изнашиваться кроме мотора. Поэтому наступление периода критического роста вероятностей выхода носителя из строя называется так не случайно — в этом периоде важные накопители лучше таки менять на исправные.

Матан производителей, в отличие от приведенных выше данных, говорит о том, что время — самый плохой доктор для жестких дисков. Картинка чуть ли не из второго закона термодинамики — энтропия, т.е. процент отказов возрастает.

Ресурс современных жестких дисков

А вот следующим фактором вылета «винтов» производители считают… температуру.

BSOD WTFаками и его разрешение

Самое время читателям предъявить мне:

Ресурс современных жестких дисков

Да как так-то ? (с) Вверху же совсем обратное!

Амбивалентность ситуации разрешить было непросто, но я смог.

Ресурс современных жестких дисков

Графики надо читать и анализировать!

Смотрим внимательно слайды. Раз.

Ресурс современных жестких дисков

И два.

Ресурс современных жестких дисков

Если коротко, то вышеподписавшиеся охватывали вниманием иные температурные диапазоны, где влияние температуры особо-то и не проявляется. Дата-центры — не сауны с блекджеком и там с кондиционированием все в порядке.

Зато вывод WD сотоварищи постулирует о том, что вероятность отказов возрастает вдове на каждые 15 градусов Цельсия роста температуры. Заметим — это не исключает мнение предыдущих ораторов. Градусов с 50-ти начинается серьезный рост перспективы вылета накопителя. Именно перспективы, а не самих вылетов. Но почему?

В соединении с изложенным возникает и требует изучения уже вопрос влияния рабочих нагрузок на ресурс жестких дисков и это привело производителей к пониманию того, что количество переданных терабайт является параметром, напрямую связанным с надежностью. Сюрприз! Жесткие диски уже тоже имеют по этой части рамки — почти как твердотельные, почти. Пока почти.

Ресурс современных жестких дисков

Удивленная публика видит новый показатель живучести НЖМД — Mean Petabytes to Failure (MPbF) и производные.

Mean Petabytes to Failure (MPbF) и производные

WD предлагает график, который получился в результате тестового забега 1200 накопителей в течении 1000 часов при сильной рабочей нагрузке с коррекцией по температуре. В итоге статистически значимые данные подтверждают, что с ростом нагрузки процент отказов растет при прочих равных. И наоборот. Причем растет кратно. Из рисунка явно видно, что в абсолютном выражении эти показатели не пугают, но, тем не менее, они существуют в реальности и ее определяют для владельцев этих накопителей.

Ресурс современных жестких дисков

Возвращаясь к головкам, пластинам, смазке и трибологии производители осознали, что надо дорабатывать напильником и срочно. Нанометры уменьшаются и вот уже нагрев реально вызывает расширения, способные привести к нехорошим физическим последствиям. Родились идеи типа динамической высоты головок. Много матана по ссылке, а мы посмотрим наглядную агитацию про Dynamic Fly Height (DFH).

Ресурс современных жестких дисков

Показатели перспектив отказов изображены на иллюстрации: тут и миграция, и износ, и рост вероятности отказов в разы.

Ресурс современных жестких дисков

Критичным считается время близкого нахождения головок к блинам (дальше — копка и запилы!), что находится в прямейшей связи с переданными объемами информации, т.е. суммой запись+чтение.

И это только «дорожный» просвет, а еще мы помним про температуру, как причину, и переданные терабайты, как ориентир. В общем, парадигма надежности жестких дисков в последнее время меняется, и НТП этому прямо способствует. Соответственно разрабатываются новые модели определения надежности, измеряемые точки опоры этих моделей и инструментальные возможности это квантифицировать. WD, в частности, обращает внимание на деградацию головок по магнитным и электрическим измерениям, расстояния между рабочими (в т.ч. магнитными) элементами и уровень ошибок. Без нагрузки головки могут быть «поднятыми» над пластинами или запаркованными в специальном месте за пределами магнитной поверхности блинов.

Да, жестким дискам тоже отведут срок эксплуатации

Выливается все это в один важный момент — некоторое время назад (почти 10 лет, но мало кто заметил) производители жестких дисков как минимум начали оценивать теоретические рамки нагрузки для своих продуктов и сегодня имеют вполне сформированное видение по этому вопросу.

Так Seagate, например, ведет в своих дисках статистику показателя Workload Rate Limit (WRL). Это что-то вроде расчета годового пробега в терабайтах. Seagate условно отводит механическому диску некорпоративного класса 180 терабайт в год или примерно 340 мегабайт на минуту работы шпинделя в режиме чтения или записи (нагрузка в этих режимах суммируется для расчета). Компания при этом замечает, что на гарантийные обязательства этот показатель в общем случае не влияет, а рассчитывается для того, чтобы зафиксировать порог нагрузки, при котором вероятность поломок накопителя возрастает. Бытовому пользователю столкнуться с такими нагрузками вряд ли придется. Диску корпоративного сегмента по логике Seagate при этом полагается 550 терабайт на год нахождения включенным. WD ориентируется на 55 ТБ в год для настольно-мобильного сегмента, 180 — облачного, 550 — корпоративного и «топчику» для дата-центров отводит 800 терабайт в год. Как бы эти 800 освоить еще. Toshiba такие показатели именует Annual Workload Rating и, например, «Выживальщику» S300 на 4 ТБ отводит 110 терабайт годовых. Детальнее по ссылке, сноска №5. Там тоже прямо указано, что с гарантией это связи не имеет, но она у всех-то limited.

Вполне вероятно, что с прогрессом в сфере технологий, которые используются в жестких дисках, эти цифры трансформируются в нечто более близкое к количеству перезаписей ячеек твердотельных накопителей и вместо информационного триггера станут гарантийным лимитом, при выходе за который производитель откажется нести гарантию. Но все это потом, а пока считается, что целенаправленно уложить накопитель потребители за 3–5 лет не должны и многие продолжают думать, что жесткие диски остаются быть «вечными». На самом деле идею нужно разбавить еще и тем, что маркетинговый отдел любого производителя под крышку бы и механизм самоликвидации запихнул для роста продаж, а главное — возможности планирования их регулярности. Но можно оскандалиться.

Время смелых

Но можно и запихнуть! Здесь следует отметить достижение по протиранию до дыр Optane и странную позицию протирателей по этому поводу. Известные адепты протирания установили, что выходу из строя SSD предшествует начало использования запасных блоков контроллером твердотельного накопителя, что, в общем-то, очевидно, перед тем, как крякнуть, с солью можно и нужно даже запасные блоки доесть. Нюанс «Оптана» был в том, что его SMART по вылету сообщал, что запасные колеса никто не ставил и они лежат в багажнике чистенькие и пупырчатые. В соединении с тем, что Optane чуть ли не единственный накопитель, который в итоге не отвалился с концами, а перешел в режим Read-Only с сохранением доступа, указанное тревожно намекает противосамолетным прожектором в ночи, что вывод его из эксплуатации произошел не по факту износа либо поломок разного рода, а запланированно в прошивке производителем. Но поскольку пробежал он явно больше, чем было заявлено Intel в спецификации, то и предъявлять вроде как нечего.

Настораживают лишь два момента:

  • «Офигеть конфетки «Тузик»!», т.е. сам факт такого не просто запланированного рассчетно, а конкретно, похоже, изначально отведенного пользователю ресурса! Optane быть может и больше выбегал, но кто ж новый купит? — песня известная.
  • Где были очки протирателей, когда они смотрели на результат? И почему они так упорно игнорируют очевидное и избегают комментариев по существу? Кто бы им бинокль вручил, хотя, как в Карлсоне, папа, т.е. Intel, мог строго настрого запретить есть варенье, а именно публиковать эти наблюдения, т.к. дорогую реально железку не для этого вручали. Ну Вы понели… (с)

Я практически уверен, что если бы нашелся Skynet, способный дизассемблировать прошивку «Оптана», то мы бы получили фактические вещдоки обозначенного, но, видимо, не сегодня.

Ресурс современных жестких дисков

А пока и безсвинцовой (или как троллили в комментариях — безплюмбумной) пайки местами хватает.

Аннушка уже разлила масло

Пока же читатели не так много, как следовало бы, уделяют внимания продвигаемому показателю DRWPD — Disk Read or Write Per Day — т.е. допустимой суточной нагрузке, а ведь именно она в последнее время становится все более ключевой в пресс-релизах и прямо проистекает из изложенного. Именно этим показателем пытаются гримировать ситуацию с ресурсом QLC, например, в Micron.

И делают это, подводя статистику, что, мол, этот показатель падает и это если не нормально, то хотя бы в ожидаемом числится. Окно Овертона в действии.

Ресурс современных жестких дисков

А вот тут мы вообще в разделе Wow! That’s Cool! (надо больше восклицательных знаков) узнаем, что, оказывается, есть тренд того, что ПО больше читает, чем пишет! Там еще заливают, что read-centic!!! софт, о котором вчера еще никто в такой формулировке не слышал (а браузерный кэш так вообще смотрит на таковой как на оленя), это то, чему твердотельные накопители страх как подходят. Особенно на QLC, на фоне того, что жесткие диски-то имеют показатель рекомендуемой нагрузки, который исполняется как в ходе чтения, так и в ходе записи. А QLC-то ведь на чтение не изнашивается!

Я не знаю, что они там в маркетинговом департаменте Micron употребляют (а если верить Пелевину, то что-то таки должны), но это очень напоминает заявление Intel о лидирующей в отрасли плотности битов на ячейку! Может вторые как-то покусали первых? В любом случае у нас очередной маркетинговый WIN! Оказывается, нам всем очень не хватало QLC. А ведь их могут читать дети!

8-bit MLC в 2019

Страшно подумать, что они наколдуют под OLC — да, восьмиячеечные решения Micron выкатит уже летом, а к зиме и накопители подвезут. Вот где маркетингу придется выворачиваться наизнанку, но, как видим, фундамент залит уже сегодня — читающее ПО и изнашиваемые жесткие диски — герои будущей драмы. Ах ну да, я забыл — это же будет 8-bit MLС, в 2,(6) раза больше битов чем у лучших образцов TLC! Обережно, покращано!

Ресурс современных жестких дисков

Very limited warranty

Но вернемся к DRWPD жестких дисков. Учитывая изложенное нельзя исключать, что выход такого показателя за пределы установленной нормы можно в будущем признать основанием для отказа в гарантии без затрат дорогущих человеко-часов сервисов на выяснение нюансов. Т.е. здесь можно сэкономить на издержках по сопровождению гарантии. Именно сопровождению, т.к. прямая замена или отказ — дешевле, проще, снижает риски сговора инженера по гарантии с клиентом (да, было много случаев, когда в последний месяц гарантии можно было треснуть жестким диском по столу и легально обменять его на новый, а если крупно повезет, то и на бОльшего объема, если старые делать и поставлять перестали).

Теория и отчеты — хорошо, а как с наглядной агитацией?

Поэтому поводу очень кстати камрад dlinyj с Habr.com задался вопросом, как быть среднестатистическому ИТ-шнику в случае, когда кровавая гэбня, предварительно перегрызя ввод питательства в квартиру, интеллигентно выносит дверной косяк с целью  поковырять архивы анона. Архивы конечно же на НЖМД.

Методические рекомендации, используемые последними в первом приближении мало изменились со времен, когда любителей поквартирного платного просмотра «ничего» опера накрывали путем обесточивания малины. Как мы помним, из редчайшего видеомагнитофона кассету можно было достать без питания (а с учетом механизма подвода пленки к головкам число таковых вообще стремится к нулю, т.к. при обесточивании пленка на головках и оставалась растянутой), а UPS были в СССР даааааалеко не у всех. В итоге под звуки выламываемой двери и почти меметичного «лицом в пол, руки за голову» у организатора домашнего кинотеатра выхода было в основном два: а) принять неизбежное со всеми вытекающими по УК СССР (аббревиатура использована исключительно в исторической ретроспективе), б) попробовать соскочить и в отчаянной попытке выбросить вещдок в окно — авось потом не докажут откуда полет начался (с развитием советской криминологии с последним боролись путем протоколирования осмотра окон специально обученными лейтенантами и расставления в прямом смысле улавливающих сеток по траектории предполагаемого полета). Ирония судьбы — нередко аэродинамику проверяли у достаточно неплохих видеомагнитофонов небезызвестной и нами ранее упоминаемой Hitachi! Ниже классика 80-х для наглядности. Фото со Skylots.org, но еще тысячи их физически в строю.

Ресурс современных жестких дисков

Toshiba, впрочем, тоже встречалась. Вот она — связь времен в реальности (и это мы еще тематично не коснулись АрВида — до гигабайта цифры на час обычной видеокассеты VHS). Особой пикантности выбору придавал тот факт, что видеомагнитофон мог стоить примерно как квартира (хотя последние официально и не продавались) — нелегкий выбор, однако. Помните, в прошлом материале мы тоже приводили такое мерило для автомобильного медиа-центра Pioneer?

В общем, фабула посещения может быть любой, а результат — прогнозируемый. Поэтому человек и решил выяснить для себя как же лучше всего максимально продуктивно потратить доступные секунды до момента, пока посоны с протокольными лицами не испачкают ковер берцами, расчищая путь коллегам в штатском.

Мы, конечно же, твердотельно и нжмдшно стоим на позиции, что уголовный кодекс надо чтить, а законодательство соблюдать, поэтому опыт товарища изучим строго в академических целях. Так, одним из предложений, озвученных автором, было уничтожение потенциально компрометирующих данных на «винте» практически Торквемадовским методом, т.е. приглашением на огонек. Сжиганием, короче. Практическая часть лабы была запротоколирована и оказалась крайне эхотажной, т.к. сжигался НЖМД не просто на костре, а с подключенным питанием, т.е. с вращающимися дисками и со снятой крышкой. Торквемада совершил бы пару оборотов в гробу, поняв, насколько он недоработал в части жестокости, после изучения картинок ниже.

Итак, диск без крышки на оборотах начинают доводить до extra crispy (а вы знали, что уровни сложности в игре Blood совпадали с англоязычными названиями степеней приготовления еды термической обработкой?) газовой горелкой. Ни в коем случае, ни при каких обстоятельствах не повторяйте дома!

Ресурс современных жестких дисков

Еще раз обратим внимание — головки вне паркинга, блины крутятся, температура растет.

Через некоторое время термическое расширение делает свое дело, и головка начинает доставать до блина в строгом соответствии с теоретическими выкладками, озвученными выше.

Ресурс современных жестких дисков

Результат налицо – глубокий запил. Но это еще не все. Через 5 минут эксперимента встал и шпиндель.

Ресурс современных жестких дисков

Вероятнее всего по аналогичной причине — технологические допуски цилиндрических соединений (или как там правильно назвать ситуацию с электромотором) не подразумевали такого сближения рабочих элементов. На этом интересующий нас эффект достигнут, но для гурманов — ниже продолжение эксперимента.

Ресурс современных жестких дисковРесурс современных жестких дисковРесурс современных жестких дисков

А тут филармония решила продолжить концерт в три смычка.

Ресурс современных жестких дисков

Результат получился с ассоциациями.

Ресурс современных жестких дисковРесурс современных жестких дисков

Таким образом, теория нашла подтверждение ускоренными ресурсными испытаниями.

Мгновение современной криминологии для киберполицейских

В этот момент из аудитории должен прозвучать настойчивый вопрос о том, не ошибся ли докладчик, сообщая о методике подготовки к заходу в помещение с искомыми носителями — точно ли надо отключать свет? Отойдя от темы, заметим, опять же академически, что отключение питания должно, помимо факторов внезапности и психологического давления, исключить в общем случае возможность подозреваемого уничтожить данные электромеханическими методами — программно, дрелью (хоть есть и на батарейках, но не у каждого), магнитным полем, микроволновкой, в случае с оптическими носителями, наконец ! Внезапность и отключение света могут дезориентировать подозреваемого и позволят выиграть оперативникам время. Правда это несет некоторые дополнительные риски — если подозреваемый несколько продвинут и искомые данные по материалам дела могут находиться на подключённом накопителе, то не исключено использование разных форм шифрования. Отключив свет в такой диспозиции, восстановить данные с хорошо и грамотно зашифрованного накопителя будет практически нереально без сотрудничества подозреваемого со следствием. При этом у подозреваемого продолжат несколько секунд быть доступными такие оффлайн-инструменты как молоток и… выкидывание в окно в надежде, что разобьется. Так что конкретное тактическое решение будет принимать руководитель следственно-оперативной группы. И совет дать команду конкретно силовой ее части физически обездвижить подозреваемого, чтобы он даже в случае UPS не споткнулся «случайно» о шнуры питания, тем самым обесточив поднятое до прихода тонких специалистов, будет не лишним.

Важно также понимать, что все вышеописанное в этом и предыдущем материале недвусмысленно намекает, что надежность современного хранения требует регулярных бэкапов. Поэтому есть некоторая отличная от нуля вероятность, что у подозреваемого могут быть резервные копии, образы, облака и прочие дублирующие источники информации. Подготовленный следователь располагает соответствующими инструментами и может выявить их местоположение для дальнейшей передачи экспертам. И эти инструменты совсем не противогаз, не швабра, не перевёрнутая табуретка и даже не отдельная комфортабельная камера с туберкулезниками в СИЗО — все это противозаконно и в тоталитарном прошлом. Сегодня следователь оперирует общечеловеческими ценностями, совестью, процессуальным кодексом и гражданской ответственностью. Впрочем, если следователь подготовлен действительно хорошо, то он может даже убедить подозреваемого передать следствию ключи шифрования, если таковое имело место. Это быстрее, дешевле и эффективнее магнитно-силовой микроскопии в случае магнитных носителей и прочих профильных прикладных технологий для носителей иных типов. Ну и криптоаналитикам не придется потеть с паяльниками. Но мы отвлеклись.

Симпозиум постановил

Таким образом, как оказывается, жесткие диски, хоть и могут долговечнее сохранять информацию, тем не менее, имеют вполне физические нюансы эксплуатации, которые становятся все более существенными с усложнением технологий. Современный жесткий диск имеет хороший ресурс передачи данных, но и он, внезапно, как и у SSD, уже имеет ограничения технологического характера, которые можно посчитать. В результате нормальной нагрузки к 5 годам работы современный жесткий диск попадет в зону риска выхода из строя, хотя проработать дома или в офисе может гораздо дольше — и 50000 и даже 100000 часов. Последнее во многом таки зависит от нагрузки и температур в силу используемых в самих дисках решений. Не забываем про вибрации, скачки напряжения и непоказательность датацентровой статистики — там все по-другому. А пока жесткие диски являются безальтернативными по емкости и цене за гигабайт хранения. Поэтому на рынке они будут существовать очень долго, и уже практически завтра мы увидим предложения на 50–100 и даже 200 терабайт в изделии, правда все это будет потихоньку смещаться в ниши, где такое железо обеспечит решение более конкретных и узких задач. Это нормальное, нужное сегментирование рынка и все категории потребителей сосредоточатся именно на тех продуктах, которые будет лучше всего соответствовать именно их потребностям по приемлемой цене. Ведь никто же не пытается сравнивать МАЗ-537 с легковым седаном, хотя технически оба автомобили и на обоих можно сгонять за «пыгом». В случае SSD потребитель получил еще одну инновационную возможность обеспечить конкретные сегменты быстрым накопителем, т.е. гибкость в подходе к конфигурированию конкретных аппаратных решений стала еще выше.

Поэтому вот этот товарищ только издалека присматривается к ситуации, трезво осознавая, что время его роли в этой постановке наступит еще не скоро.

Ресурс современных жестких дисков

Не стоит так же забывать, что есть немало технологий, способных продлить жизнь жестким дискам. Некоторые из них еще не вышли за пределы лабораторий и неизвестны вне среды узких специалистов, а некоторые уже пытаются быть представленными общественности предприимчивыми стартаперами (слово-то какое к нам из маркетинга подвалило!). Так, например, ребята из L2Drive на серьезных щах заявляют о вакуумных 3D-технологиях в традиционных жестких диска. Т.е. прямым текстом предлагают откачать все газы из гермокамеры с блинами и головками.

Ресурс современных жестких дисков

Если у них взойдет, то и покрытия дисков с головками можно будет упразднить, и смазку защитную не добавлять, и проблемы газовой среды внутри накопителя решить, что крайне важно для термомагнитных перспектив, и… расстояния еще сильнее уменьшить. Правда мы помним, что это как раз один из главных взаимоисключающих параграфов надёжности сегодня на фоне еще и термодинамики. На это стартаперы отвечают тем, что в безгазовой среде они смогут легче активно управлять зазором блин-головка. С другой стороны, все прелести, если таки взойдет, можно будет внедрить и без award winning-уплотнения. Правда, в числе участников междусобойчика числятся аж два прямым текстом, как они себя сами позиционируют, серийных предпринимателя, что для нашего уха звучит несколько необычно и в такой формулировке даже как-то невольно вспоминается известная тема композитора Игоря Назарука (если вам больше 25, то вы ее, скорее всего, знаете). Еще двое — выходцы из WD и решительно непонятно почему там эту идею не взялись внедрять, особенно на фоне продвигаемой MAMR.

В любом случае этот пример говорит о том, что идеи еще будут и общий НТП будет этому, несомненно, способствовать.

Вторым главным следствием из прочитанного является тот факт, что слепо доверять публикациям из любых источников (и этой в первую очередь) без критического их осмысления (в комментариях) не стоит — они могут быть совершенно достоверны по сути, но нерелевантны в конкретных условиях. Ложное понимание описанной «магии» может вылиться в убытки как финансовые, так и имиджевые. Последние нередко дороже.

В этом ключе хотелось бы также напомнить, что на трилемму и достижения инженеров-физиков есть обратный компенсаторный механизм маркетологов, который как никогда тематичен.

Ресурс современных жестких дисков

А в случае с особо эффективным внедрением новых технологий инженерами и соответствующим падением цен на накопители традиционного типа может и какое наводнение произойти, пожар на худой конец. Это очень бодряще действует на графики цен оптовых поставок.

Ресурс современных жестких дисков

Глобально это выглядело вот так и сильно подправило линию тренда цены за гигабайт:

Ресурс современных жестких дисков

Однако при наличии всего-то трех производителей этого может и не понадобится, о чем нам крайне толсто намекают изготовители памяти закладкой учебника по конкуренции в разделе «Олигополия».

По этому поводу вот прямо на днях недвусмысленно в TrendFocus намекнули, что поставки традиционных НЖМД по итогам года несколько упали в потребительском секторе. Общую ситуацию сглаживает Enterprise, но на фоне закрытия WD аж трети своих заводов по обычным «винтам» (на самом деле одного из трех, но «трети» звучит драматичнее) цены могут и подрасти. О чем там кто и с кем мог договариваться пусть анализирует и моделируют антимонопольщики. А мы смотрим свежую статистику.

Ресурс современных жестких дисков

Дополнительно отметим, что 5-летняя гарантия на потребительские решения в сферах HDD и SDD намекает, что эти технологии еще неизбежно пересекутся.

Титры

Спасибо дочитавшим до конца более 76000 знаков с пробелами. Теперь вы знаете больше. И Вы, тов. полковник, тоже.

Ресурс современных жестких дисков

Свои отзывы и предложения прошу оставлять в комментариях. Возможно, я что-то не осветил в стремлении к лапидарности или кто-то с чем-то не согласен, и мы вместе повысим образовательный уровень наш и тех, кто эту статью найдет в поиске в будущем.

У каждой детали или сборки имеется определенный запас прочности. По истечению ресурса дальнейшая эксплуатация становится не возможной или только в условиях ухудшения изначальных характеристик/возможностей. Из статьи вы узнаете, какой ресурс работы у жестких дисков, как рассчитывается, а так же как сохранить запас прочности диску и продлить срок службы.

Что такое «ресурс» и «срок службы»

Термин «ресурс» обозначает износ устройства с начала использования и до предельного состояния, после чего эксплуатировать диск становится невозможно или с некоторыми ограничениями. Ключевые факторы, влияющие на износ – нагрузка и длительность работы. При определенных сценариях эксплуатации ресурс HDD выражается в цифрах: часах непрерывной или общей работы, объеме записанных или считанных данных, время запусков, число циклов включении/отключения шпинделя. Так же к ресурсу относится остаточное пространство на диске, что может использоваться для записи и чтения данных.

Под сроком службы следует понимать время работы жесткого диска до наступления замены или отказа, когда накопитель перестает функционировать. Факторы, влияющие на срок службы – износ и условия эксплуатации.

Оценка ресурса HDD

Жесткие диски оснащены технологией самоконтроля и анализа состояния — S.M.A.R.T. Технология наблюдает за основными характеристиками HDD/SSD накопителя, собирает данные о наработке и выставляет оценку для каждого параметра. При запросе данных информация отображается в понятном пользователю виде, что позволяет быстро оценить общее состояние накопителя и отдельных компонентов.

Обычно оценка состояния отображается цифрой в диапазоне 0-100, бывают и исключения для некоторых параметров, например 120 или 200. Чем выше цифра текущего значения, тем лучше состояние накопителя.

Дополнительно отображается наихудшее и пороговое значение. Наихудшее или худшее значение показывает минимальную оценку за определенный период времени. К примеру, температура диска всегда составляла 30 градусов, а при отсутствии обдува выросла до 40. Последнее наихудшее значение сохранится для статистики и останется таковым, пока не будет превышено.

Пороговое значение обозначает достижение выработки по определенному параметру, после чего диск следует заменить или отремонтировать, если остальные компоненты накопителя не достигли предельного значения. Если же заменить диск временно не представляется возможным, тогда стоит перенести все важные данные на другой накопитель, что бы предотвратить потерю данных в случае внезапной поломки.

Технология S.M.A.R.T предназначена только для анализа и сбора статистики. Уведомление пользователя о достижении предельных значений выработки ресурса не предусмотрено. Поэтому с целью предупреждения и выявления преждевременного износа следует просматривать значения S.M.A.R.T в приложениях для диагностирования: Aida64, CrystalDiskInfo, Victoria и т.д.

SMART в программе aida64

Наиболее подробную оценку ресурса отображает программа Victoria. Помимо значений израсходованного ресурса в окне утилиты отображается графа «остаток», что в визуальной форме позволяет оценить остаточное значение ресурса.

SMART в программе Victoria
SMART в программе Victoria.

Признаки выработки ресурса: жесткий диск перестает функционировать, работает существенно медленнее при чтении/записи информации, запись или чтение имеющихся данных невозможна. Поэтому желательно периодически диагностировать

Оценка срока службы HDD

Обычно срок службы для замены, равен гарантийному сроку, что предоставляет производитель жесткого диска. По истечении гарантии выполняется замена накопителя аналогичным объемом. Причем замена производится даже при условии сохранения диском полной работоспособности. Такие требования установлены в большинстве компаний, что работают с данными или же у коммерческих организаций/предприятий. Поскольку дальнейшая эксплуатация «отработанных» накопителей может привести к внезапной поломке, что выльется к простою оборудования и/или затруднит доступ к данным.

Отработанные накопители подлежат уничтожению. При этом некоторые сотрудники компаний предпочитают оставить не полностью изношенные накопители себе или перепродать под видом восстановленных/ранее использованных. Часто предложения восстановленных дисков встречаются на зарубежных торговых площадках. Пользователи, что приобретали восстановленные накопители, утверждали, что диски не восстанавливались, а только эксплуатировались, вероятно, в дата-центрах.

Бытовые потребители продолжают эксплуатировать жесткие диски и после завершения гарантийного срока. Поэтому фактический срок службы HDD у некоторых пользователей достигает 10, а то и больше лет. Часто изношенные диски продолжают эксплуатировать в неответственных сценариях вплоть до полного прекращения работоспособности.

Что влияет на ресурс HDD

На ресурс диска влияет длительность работы накопителя и нагрузка. Под длительностью работы следует понимать общую наработку в часах, а так же время непрерывной работы. К слову значение непрерывной работы – без остановки, отдельно не отображается и входит в общее время наработки. Под нагрузкой следует понимать процессы записи и чтения информации с накопителя. Диск быстрее изнашивается в процессе активной нагрузки, в бездействии износ меньше.

Производители жестких дисков указывают в спецификации рекомендуемое годовое значение нагрузки и времени эксплуатации. Превышение указанных значений увеличивает нагрузку на диск. Так же в спецификации указывается общая надежность диска. Поэтому для надежной и длительной эксплуатации рекомендуется подбирать диск в соответствии с планируемыми сценариями использования.

К примеру, производитель HDD – Seagate указывает следующие параметры надежности/рекомендуемую рабочую нагрузку:

  • Количество циклов запуска/остановки шпинделя за весь срок эксплуатации. Обычно указывается цифра в 300-600 тыс. запусков. При достижении указанной цифры имеется вероятность, что шпиндель придет в негодность. У некоторых экземпляров шпиндель продолжает работать и после 1.5 млн. запусков. А если учесть, что у некоторых накопителей 1 цикл равен одному запуску диска, достижение цифры в 300 тыс. циклов непосильная задача.
  • Неустранимые ошибки чтения на бит. Подразумевается, что диск может не считать 1 бит данных при чтении 1000 Терабайт данных.
  • Количество часов работы в режиме 24х7 в год. Время работы накопителя без выключения.
  • Предельная рабочая нагрузка в год. Общий объем записанных и считанных данных.
  • Средняя наработка на отказ за весь срок эксплуатации. Обычно указывается 1 млн. часов или 114 лет. Следует понимать, что указанная наработка относится к нескольким дискам. Например, у 10 дисков, что наработают 1 млн. часов вероятность отказа хотя бы одного – 99.9 %. Для 10 дисков с наработкой 100 тыс. часов вероятность отказа – 50%.
Надежность в спецификации HDD SkyHawk.
Надежность в спецификации HDD SkyHawk.

Для накопителей Seagate серии BarraCuda выставляются наименьшие параметры рабочей нагрузки, поскольку такие накопители ориентированы для бытовой эксплуатации.

  • Количество циклов запуска/остановки шпинделя – 300-600 тыс.
  • Неустранимые ошибки чтения – 1х1014.
  • Количество часов работы в режиме 24х7 – 2400 в год или 100 дней.
  • Предельная рабочая нагрузка в год – 55 ТБ.

У дисков серии Seagate SkyHawk/SkyHawk Ai выше параметры рабочей нагрузки, поскольку накопители предназначены для хранения видео с камер видеонаблюдения в круглосуточном режиме работы. Соответственно запас прочности изначально выше в сравнении с линейкой BarraCuda, так как учитываются повышенная эксплуатационная нагрузка.

  • Количество циклов запуска/остановки шпинделя – 300 тыс.
  • Неустранимые ошибки чтения – 1х1014/1х1015.
  • Количество часов работы в режиме 24х7 – 8760 или 365 дней.
  • Предельная рабочая нагрузка в год – 180/550 ТБ.
  • Средняя наработка на отказ – 1/1.5 млн. часов.

Что влияет на срок службы HDD

Жесткий диск проработает дольше при бережном использовании. Для этого желательно эксплуатировать диск в соответствии с указанной рабочей нагрузкой, если такая информация имеется в спецификации. А ещё важно исключить негативные внешние факторы: вибрацию, пульсации БП, изменение температур, перепады тока и напряжения.

Вибрация

Негативный эффект создает не столько вибрация, как резонанс двух вибрирующих устройств, например ещё один HDD или корпусные вентиляторы. Вибрация вызывает ошибки позиционирования блоков магнитных дисков, что ухудшает общее состояние механических частей, а так же поверхность магнитного диска.

В качестве решения стоит использовать вентиляторы Noctua или аналоги, что не вызывают вибрацию. Если в корпусе имеется несколько корзин для установки HDD, то лучше разделить диски в нескольких корзинах. Так же как вариант установить самодельный крепеж из войлока для уменьшения передачи вибрации внутри корпуса.

Пульсации БП

Блоки питания внутри ПК создают пульсации, что негативно сказывается на электронных и механических деталях HDD и SSD дисков. Для линий питания 3.3В и 5В допустимые пульсации 50 мВ, для линий 12В – 120 мВ. Поскольку осциллограф для измерения найдется не в каждом доме, значения пульсаций у того или иного блока питаний лучше искать в обзорах, так как производитель может не предоставить данную информацию. Поэтому не стоит экономить на источнике питания.

Перепады тока и напряжения

Так же не качественный блок питания в процессе работы подает больше или меньше напряжения/тока. Подобные перепады не сложно замерять при помощи мультиметра. Кратковременные перепады накопитель переживет, а вот при постоянной эксплуатации высока вероятность выхода из строя. Так же поломку может вызвать изношенный блок питания, где за длительное время эксплуатации вышли из строя конденсаторы и другие силовые компоненты.

Внезапное отключение электричества

Резкое отключение электричества так же негативно сказывается на накопителях, в частности при записи данных. Поэтому желательно обзавестись ИБП – источником бесперебойного питания со встроенной батареей. Наличие автономного источника питания позволит корректно завершить работу накопителя и предотвратить потерю данных.

Так же желательно установить в жилье реле напряжение, что отключает подачу электричества при превышении или падении заданного напряжения. Такое устройство позволит защитить накопитель, компьютер и другие электроприборы.

Высокая или низкая температура

Рабочая температура жестких дисков обычно в пределах 25-45 градусов по Цельсию. Предельная температура 70 градусов и длительная эксплуатация при такой температуре приведет к поломке накопителя. Желательно удерживать температуру в пределах 25-35 градусов.

Информацию о нижней предельной температуре используемого накопителя подскажет программа Victoria. Обычно минимальная температура эксплуатации составляет 14 градусов. При этом лучше не доводить до снижения температуры ниже 20-25 градусов.

Перемещение во включенном состоянии

Не допускается двигать корпус или перемещать жесткий диск во включенном состоянии. Такие действия влияют на состояние механики и могут привести к повреждению считывающей головки и магнитного диска.

Вывод

Жесткие диски достаточно надежные и долговечные. Если не допускать перегрузок, обеспечить подвод качественного питания, оптимального охлаждения, исключить вибрацию и внезапные обрывы электропитания, жесткий диск запросто прослужит 5-10 или больше лет. При этом никто не застрахован от внезапной поломки, что приведет к отказу работы накопителя с приличным «запасом прочности». Так же встречается брак и скрытые дефекты, что обычно проявляются впервые месяцы или год эксплуатации. Поэтому желательно хранить ценную информацию на нескольких накопителях или Raid-массивах. Так же стоит периодически просматривать S.M.A.R.T дисков, что бы заранее предупредить выход из строя отработанного накопителя.

А как долго прослужил ваш жесткий диск? Делитесь наработкой вашего накопителя, а так же задавайте вопросы в комментариях под статьей.

Введение

Проектирование современной ИТ-системы предприятия невозможно без расчёта показателей надёжности. При этом основное внимание уделяется показателям надёжности функционирования системы, доступности сервисов и минимизации последствий простоя. В то же время основную ценность представляют данные.

Несмотря на тенденцию всё большего использования в системах хранения данных твердотельных накопителей (Solid Stade Drive, SSD), основным массовым компонентом хранения продолжают оставаться шпиндельные накопители – жёсткие диски (Hard Disk Drive, HDD). Именно они на текущий момент обеспечивают большие объёмы хранения по минимальной стоимости. Надо отметить, что не уделяется должного внимания проектированию системы хранения данных, для которой ключевым параметром является надёжность хранения и обеспечение доступности данных.

Современные жёсткие диски являются высокотехнологичными устройствами с ёмкостью до 14 Тбайт на устройство. Это практический предел, достижимый при использовании основного на текущий момент перпендикулярного способа записи данных на магнитный диск. Новые технологии, в частности, метод записи HAMR (Heat Assisted Magnetic Recording – тепловая магнитная запись), позволят достичь в ближайшее время ёмкости дисков до 30 Тбайт и более и минимизировать стоимость хранения данных, хотя и текущая ёмкость дисков позволяет строить системы хранения до нескольких петабайт в пределах одного шасси.

Отказы жёсткого диска

Современный жёсткий диск является высокотехнологичным устройством, состоящим из большого количества электронных компонентов, механических деталей и узлов, выполненных с микронными допусками (рис. 1).
cta2019 3 page094 pic01
Несмотря на высокую сложность, конструктивные и технологические решения позволили обеспечить высокую надёжность жёстких дисков со средним временем наработки на отказ достигающим 2–2,5 млн часов. На первой взгляд, это гарантирует бесперебойную работу. Но с постоянно растущими требованиями по объёму хранения данных необходимо увеличивать количество дисков (шпинделей) , что влечёт за собой уменьшение надёжности системы хранения.

Рассмотрим основные причины отказов жёстких дисков. Дерево отказов представлено на рис. 2.
cta2019 3 page095 pic02

Для жёстких дисков, основная задача которых – хранение данных, отказ – это их потеря, а точнее, невозможность их считывания. Современный подход выделяет два типа отказов дисков: первый – функциональный (явный) отказ, или, как принято говорить, операционный сбой, и второй – скрытая ошибка. Функциональный отказ обнаруживается на аппаратном уровне обслуживающим накопитель контроллером и при правильном построении системы не ведёт к потере данных. Скрытые ошибки явно не проявляются, но их последствия могут быть катастрофическими и в итоге способны привести к полной потере данных. Для обнаружения и исправления скрытых ошибок требуется применение специальных алгоритмов и дополнительных вычислительных ресурсов.

Основными причинами функционального отказа являются нарушение серворазметки, сбои системы позиционирования, сбои и отказ в работе электроники накопителя, поломки считывающих головок и превышение лимита критичных SMART-параметров (Self-Monitoring, Analysis and Reporting Technology – технология самоконтроля, анализа и отчётности, или технология оценки состояния жёсткого диска встроенной аппаратурой самодиагностики, а также механизм предсказания времени выхода его из строя).

Функциональный отказ проявляется двумя способами: во-первых, данные не могут быть записаны на жёсткий диск, во-вторых, после того как данные записаны и всё ещё присутствуют на жёстком диске (пластине), электронные или механические неисправности не позволяют считать их. Во втором случае для некоторых отказов возможно восстановление информации с использованием специального оборудования и программного обеспечения. Восстановление данных при отказе блока электроники можно осуществить заменой платы электроники от аналогичного диска.

Среднее время наработки на отказ

Величина функциональных отказов определяет надёжность диска как устройства и выражается через среднее время наработки на отказ – Mean Time Between Failure (MTBF).

MTBF является статистическим термином и указывается в технической спецификации устройства. Необходимо понимать, что эта характеристика относится ко всей популяции дисков данной модели, а не к конкретному устройству, и является средней наработкой всех протестированных по специальной методике дисков, отнесённой к количеству отказов.

Значение MTBF вычисляется на основании большого (статистически значимого) количества приводов, непрерывно работающих на тестовом сайте, с экстраполяцией данных в соответствии с различными известными статистическими моделями для получения результатов.

Следует отметить, что параметр MTBF в целом характеризует надёжность восстанавливаемого устройства и определяется как

MTBF = MTTF + MTTR.

Здесь MTTF (Mean Time To Failure) – cредняя наработка до отказа; MTTR (Mean Time To Repair) – среднее время до восстановления работоспособности (рис. 3).
cta2019 3 page095 pic03

Для компонентов системы, в частности, для жёстких дисков производитель, как правило, приводит значение параметра средней наработки на отказ (MTBF), которым обычно оперируют при расчётах надёжности системы. При расчётах показателей надёжности систем с несколькими промежуточными состояниями необходимо оперировать показателем времени наработки до отказа. Обычно в системах хранения данных диск заменяется на исправный из «горячего» резерва автоматически или обслуживающим персоналом из комплекта ЗИП. Поэтому можно считать, что значение MTTR равно нулю и таким образом получаем, что MTBF = MTTF. Даже в случае, когда замена идёт из удалённых запасов и это время исчисляется неделями или месяцами, время замены (MTTR) значительно меньше MTBF и можно принять MTBF равным MTTF.

MTBF системы в целом состоит из MTBF компонентов и вычисляется по формуле:

cta2019 3 page096 f01

Здесь MTBFi – наработка на отказ i-го компонента системы.
Если MTBF компонентов системы одинаковы, что характерно для дисковой подсистемы, в которой обычно используются однотипные диски, то для данного случая получаем следующее выражение

MTBFsys = MTBFdisk ⁄ N

Здесь MTBFdisk MTBF диска, N – количество дисков.

Значения MTBF современных жёстких дисков, как было указано ранее, составляют до 2 500 000 часов, что может привести к выводу о том, что спецификация диска обещает более 100 лет его непрерывной работы. Но MTBF – это лишь расчётная величина, получаемая на основании параллельного сбора статистики отказов большого числа экземпляров нового исправного оборудования, у которого интенсивность отказов минимальна.

По мере старения и износа вероятность отказов возрастает, также это происходит, если в системе эксплуатируется большое количество дисков.

Qsys = N×T MTBF

Здесь Qsys – вероятность отказа системы, N – количество дисков в системе, T – период времени.

Типичный пример для системы, в которой используются 114 однотипных дисков, с MTBF = 1 000 000 часов (144 года): за год её работы мы должны ожидать, что один диск выйдет из строя.

Q114 = 114×1 ⁄ 114 = 1

Таким образом, для такой системы, как минимум, один диск нужно держать в ЗИП.

Ежегодная вероятность сбоев

Значение MTBF имеет смысл только для расчётов параметров надёжности системы, о чём будет рассказано далее.

И MTBF также не является гарантией относительной надёжности семейства продуктов. Более высокий показатель MTBF просто предлагает более надёжную серию (семейство) механизмов (в зависимости от согласованности используемых статистических моделей).

Стоит отметить, что практические значения MTBF, которые включают все возвраты дисков производителям независимо от причины, обычно составляют 50–60% от прогнозируемого MTBF. На эту величину и следует ориентироваться при эксплуатации изделий.

Вместо MTBF гораздо практичнее пользоваться параметром AFR — Annual Failure Rate, или ежегодная вероятность сбоев (ещё его называют Reliability – показатель надёжности), выводимым из MTBF.

Он вычисляется как

AFR Failures ⁄ Year Failures ⁄ Hours × Hours ⁄ Years = 1 ⁄ MTBF × POH = POH ⁄ MTBF

Здесь POH – время работы в год (Power-On-Hours per year).

Для режима работы системы 24/7, то есть 24 часа в день × 365 дней в году , типичное значение POH составляет 8760, и, соответственно, получаем выражение:

AFR = 8760 ⁄ MTBF

Это выражение даёт оценочную долю устройств, которые откажут в течение года. Тогда 1–AFR – это доля устройств, которые не откажут в течение года.

Итак, MTBF является вероятным средним числом часов работы между отказами, AFR является вероятным процентом отказов в год, исходя из общего количества установленных единиц системы аналогичного типа.

Скрытые ошибки данных

Под скрытыми ошибками данных (Silent Date Corruption) понимают не обнаруживаемые электроникой накопителя в процессе работы ошибки. Причиной этого может быть:

  • нарушение данных на соседних дорожках при записи;
  • отсутствие модификации оригинальных данных при записи;
  • ошибки чтения данных при неправильной интерпретации кодов коррекции ошибок (в случае множественных ошибок);
  • считывание неверных данных из-за ошибок позиционирования.

Причинами возникновения этих ошибок являются производственные дефекты магнитного слоя, коррозийные и физические повреждения магнитного слоя в процессе эксплуатации, временные сбои в позиционировании магнитных головок, например из-за вибраций, ошибки позиционирования из-за термического расширения рабочей поверхности вследствие нарушений температурного режима эксплуатации накопителя.

Фактическим параметром, характеризующим скрытые ошибки данных, является URE (Unrecoverable Read Errors – невосстанавливаемые ошибки чтения), определяемый как отношение числа ошибок к объёму (количеству) считанных данных:

URENerror ⁄ Cbit.

Здесь Nerror – количество ошибок; Сbit –объём считанных данных в битах.

Минимальной величиной считывания данных с диска является сектор. Встроенные механизмы позволяют исправить некоторые ошибки чтения сектора, но иногда они не справляются со своей задачей и сектор прочитать не удаётся. Эту ошибку первоначально обозначили как скрытую ошибку сектора – Latent Sector Errors (LSE), и она применялась в расчёте на один сектор.

В настоящее время разные производители для различных моделей дисков приводят эти величины как в секторах, так и в битах, что, в принципе, даёт примерно одинаковые значения при расчётах.

Значение URE весьма мало́ и приводится для одной ошибки, то есть Nerror = 1.

Исходя из этого, получаем выражение для объёма считываемых данных, при котором произойдёт ошибка чтения:

Сbit = 1 ⁄ URE.

Типичные значения URE и объём считываемых данных, для которых вероятность возникновения ошибки чтения равна 1, приведены в табл. 1.
cta2019 3 page098 tabl01
Как видно, значение параметра URE, то есть вероятность ошибки считывания 1 бита, весьма мало́. Но следует понимать, что высоконагруженные системы, особенно в режиме восстановления, считывают значительные объёмы данных и возникновение ошибки чтения и, следовательно, потери данных довольно высоко.

Так, при восстановлении RAID-массива происходит считывание данных с работающих дисков и запись информации на новый диск, и общий объём данных будет составлять:

Сread = Сbit × K

или

Сread = Сbit × (NR).

Здесь Сread – объём прочитанных данных (в битах); Сbit – объём (размер) одного диска (в битах); K – количество дисков с данными (полезный объём RAID-массива); N – количество дисков в RAID-массиве; R – количество избыточных дисков.

Для типичного дискового массива в 2U-шасси, состоящего из 12 дисков ёмкостью 12 Тбайт каждый, объединённых в RAID 5 (один диск для обеспечения избыточности), получаем объём считываемых данных 132 Тбайт:

Сread = 12 Тбайт × (12–1) = 132 Тбайт = 1015 бит.

При величине URE, соответствующей значению 1015, что является типичным значением для современных дисков большой ёмкости, используемых в системах хранения данных, восстановление такого массива может не произойти, то есть информация будет потеряна.

Таким образом, можно определить максимально допустимый объём дискового массива в зависимости от типа используемых дисков, с заданной допустимой вероятностью восстановления данных.

Среднее время восстановления диска в системе хранения данных

Следующим важным параметром при расчёте надёжности дисковой подсистемы, является время до полного восстановления (MTTR) неисправного компонента (диска).

В отличие от стандартных систем замена диска в системах хранения данных не означает, что диск становится работоспособным. Для восстановления работоспособности заменённого диска необходимо записать на него данные, то есть перестроить RAID-массив и вернуть его в работоспособное состояние. Таким образом, время восстановления диска в системе хранения данных определяется следующим выражением:
MTTRdisk = TDIAG +TREP + TRBLD.

Здесь MTTRdisk – время ремонта (замены) диска; TDIAG – время обнаружения неисправного диска; TREP – время, необходимое для ремонта (замены) неисправного диска; TRBLD – время восстановления потерянных данных (Rebuild) на новом диске.

Время замены может значительно варьироваться: часы, дни или нулевое время при «горячем» резерве (hot spare), когда резервный диск уже установлен в системе и сразу же включается в работу при обнаружении отказа какого-либо диска.

Если принять, что в дисковом массиве операции записи и чтения выполняются одновременно на все диски, а время расчёта контрольных сумм значительно меньше времени чтения/записи на диск, то время восстановления можно оценить как

TRBLD = CVOL  ⁄ Pdisk

Здесь CVOL – размер тома, PDISK – скорость чтения данных с диска.

Учитывая, что при наличии диска, находящегося в «горячем» резерве, TDIAG = 0 и TREPL = 0, время восстановления диска будет:

MTTRdisk = CVOL  ⁄ Pdisk.

В спецификациях дисков приводится такой параметр, как максимальная постоянная скорость передачи данных по внешнему диаметру (Мбайт/с). Типичная скорость передачи данных современных дисков со скоростью вращения шпинделя 7200 об./мин составляет от 130 до 250 Мбайт/с. Надо понимать, что это максимально возможная потоковая скорость. На внутренних диаметрах она значительно ниже.

На практике восстановление конкурирует ещё и с рабочими запросами ввода-вывода, поэтому скорость передачи данных нужно оценивать как 1/3 от указанной в спецификации или получать экспериментальным путём для заданной конфигурации RAID-массива и рабочей нагрузки.

Ожидаемое время до потери данных

Для систем хранения данных основной метрикой надёжности является среднее время до потери данных – Mean Time To Data Loss (MTTDL). Это оценка ожидаемого времени до момента, когда хотя бы один блок данных не сможет быть считан (или восстановлен), то есть время до потери данных.

Для обеспечения надёжного хранения данных современные системы используют механизмы избыточного кодирования, в том числе технологии RAID-массивов (Redundant Array of Independent Disks – избыточный массив независимых дисков) различного уровня. Уровень RAID-массива выбирается из критериев обеспечения необходимого уровня надёжности хранения данных, а точнее, возможности их восстановления в случае отказа одного или нескольких входящих в дисковый массив дисков, а также требуемой производительности и ёмкости дисковой подсистемы. Следует отметить, что RAID-массивы обеспечивают возможность восстановления данных только в случае функциональных сбоев дисков, входящих в RAID-массив.

По обеспечению сохранности и доступности информации RAID-массивы можно разделить на следующие типы:

  1. без обеспечения сохранности данных при выходе из строя любого накопителя – RAID 0;
  2. обеспечение сохранности данных при отказе одного накопителя – RAID 1, RAID 1E, RAID 5, RAID 5EE;
  3. обеспечение сохранности данных при отказе двух любых накопителей – уровни RAID 6, RAID DP (Dual Parity);
  4. обеспечение сохранности при отказе более двух любых накопителей – RAID TP (Triple Parity), RAID 7.3, RAID M+N (отказ M из N);
  5. групповые уровни, обеспечивающие доступность данных при выходе из строя нескольких дисков, но из разных групп – уровни RAID 10, RAID 50, RAID 60 и т.д.

RAID 0, c точки зрения обеспечения надёжности, имеет чисто теоретическое значение и применяется в групповых уровнях для повышения производительности RAID-массива.

RAID 5 и RAID 6 – самые распространённые, причём RAID 6 применяется там, где RAID 5 не обеспечивает требуемую надёжность хранения, и используется в массивах большой ёмкости.

RAID-уровни четвёртой группы – фирменные (Proprietary) разработки. Применяются в случаях, где стандартные уровни, в частности RAID 6, уже не могут гарантировать заданный уровень надёжности хранения данных.

Групповые уровни RAID, как было сказано ранее, применяются для повышения производительности массива данных.

Рассмотрим расчёт среднего времени до потери данных для основных типов RAID-массивов.

Ожидаемое время до потери данных MTTDL для дискового массива RAID 5

Для обеспечения избыточности RAID 5 необходим один диск, поэтому ёмкость для хранения данных дискового массива RAID 5 будет меньше на ёмкость одного диска, чем ёмкость всех дисков, используемых в нём. При отказе одного диска в массиве он переходит в состояние Degraded (отказавший), в котором отказ ещё одного диска приведёт к потере данных. Поэтому необходимо как можно быстрее установить исправный диск вместо отказавшего и запустить режим восстановления – Rebuild.
Режим восстановления может запускаться как автоматически после замены диска, так и по команде оператора. При наличии в массиве специального уже установленного дополнительного диска «горячей» замены (Hot spare) режим перестройки массива обычно включается автоматически для сокращения времени восстановления.
cta2019 3 page100 pic04

Для дискового массива RAID 5 возможны два пути потери данных (рис. 4):

  • ошибка диска во время восстановления (когда массив находится в Degraded Mode¹);
  • сбой вследствие скрытой ошибки данных (URE) во время восстановления.

Время до сбоя первого диска в системе будет составлять:

MTTFdisk_1 = MTBFdisk  ⁄ N.

Здесь MTBFdisk – наработка до отказа диска; N – количество дисков в RAID-массиве.

Отказ первого диска не означает потерю данных. Как было сказано ранее, это вызывает переход дискового массива в состояние Degraded и начало восстановления целостности массива (Rebuild).

После первого сбоя в массиве останется (N–1) дисков. Если один из них откажет во время восстановления, то это приведёт к потере данных.

Время до отказа второго диска:

MTTFdisk_2 = MTTFdisk ⁄ (N–1).

Отказ второго диска происходит во время восстановления, поэтому вероятность вторичного отказа диска будет

Qdisk_2 = MTTRdisk  ⁄ MTTFdisk_2

Здесь MTTRdisk – время восстановления диска, MTTFdisk_2 – время до отказа второго диска.

Таким образом, время до потери данных для RAID 5 при отказе второго диска (функциональный сбой) будет составлять:

MTTDLRAID5_MTBF = MTTFdisk_1  ⁄ Qdisk_2.

или

MTTDLRAID5_MTBF = MTBFdisk2   ⁄ MTTRdisk × N × (N–1).

После отказа первого диска в системе остаётся (N–1) дисков, которые должны быть прочитаны, чтобы восстановить чётность в RAID-массиве.

Вероятность безошибочного чтения всего диска зависит от величины невосстановимых ошибок чтения и ёмкости диска и определяется как

Pdisk = (1–URE)Cbit.

Здесь URE – количество невосстановимых ошибок чтения; Сbit – размер диска в битах.

Тогда вероятность ошибки во время восстановления RAID 5 из-за невосстановимой ошибки чтения:

QURE=1–Pdisk(N–1)

Здесь N–1 – количество дисков, которые нужно считать.

Время до потери данных для массива RAID 5:

MTTDLRAID5_URE = MTTFdisk_1  ⁄ QURE.

или

MTTDLRAID5_URE = MTBFdisk  ⁄ QURE × N.

или

MTTDLRAID5_URE = MTBFdisk  ⁄ N ×(1-Pdisk(N-1)).

Таким образом, время до потери данных в массиве RAID 5 будет

MTTDLRAID5 = (MTTDL⁻¹RAID5_MTBF + MTTDL⁻¹RAID5_URE)⁻¹.

Ожидаемое время до потери данных MTTDL для дискового массива RAID 6

В RAID 6 используется схема двойной чётности, поэтому для её обеспечения в дисковом массиве необходимы два дополнительных диска. Полезная ёмкость дискового массива будет меньше на два диска, чем общее число дисков в RAID-наборе.

Благодаря механизму двойной чётности данные могут быть восстановлены при двух одновременно отказавших дисках.
cta2019 3 page102 pic05

Таким образом, для дискового массива в RAID 6 потеря данных может произойти в следующих случаях (рис. 5):

  1. отказ трёх дисков во время восстановления;
  2. отказ двух дисков во время восстановления, плюс произошла ошибка из-за скрытой ошибки данных.

По аналогии с RAID 5 получаем следующие выражения.

Ожидаемое время до потери данных при отказе трёх дисков будет составлять:

MTTDLRAID6_MTBF = 2 × MTBFdisk³  ⁄  MTTRdisk² × N × (N–1) × (N–2).

Ожидаемое время до потери данных при отказе двух дисков и возникновения ошибки чтения:

MTTDLRAID6_URE = MTBFdisk²  ⁄  N × (N–1) × (1– (1–Pdisk))(N–2) ×MTTRdisk² 

И время до потери данных в массиве RAID 6 вычисляется как:

MTTDLRAID6 = (MTTDL⁻¹RAID6_MTBF + MTTDL⁻¹RAID6_URE)⁻¹.

Таким образом, в статье в упрощённом виде рассмотрены модели отказоустойчивых дисковых массивов, организованных в RAID 5 и RAID 6, с учётом показателей надёжности дисков: наработки на отказ (MTBF) и возможных невосстановимых ошибок чтения данных (скрытой ошибки данных – URE) при восстановлении массива, и предложены формулы расчёта надёжности таких систем.

Данные модели и формулы наиболее точно отражают реальную надёжность избыточных дисковых массивов и могут применяться для расчёта показателей надёжности. ●

Автор – сотрудник фирмы «Адвантикс»

Телефон: (495) 232-1693


E-mail:
info@advatix-pc.ru

Крупный план рук в перчатках, ремонтирующих жесткий диск компьютера.

Среднее время безотказной работы, среднее время наработки на отказ, представляет собой оценку того, как долго проработает жесткий диск или другой накопитель до того, как он выйдет из строя. Среднее время безотказной работы рассчитывается путем деления количества часов, в течение которых накопитель работал во время тестирования, на количество отказов. Время может варьироваться от 100 000 часов до 1 миллиона часов и более.

При покупке нового жесткого диска или твердотельного накопителя знание его среднего времени безотказной работы необходимо для понимания качества продукта и ожидаемого срока службы. Вот более пристальный взгляд на то, что именно это означает и почему это так важно.

Что такое среднее время безотказной работы?

Проще говоря, MTBF или среднее время наработки на отказ — это расчетное время, которое потребуется для отказа устройства. В зависимости от того, кого вы спросите (или какая компания производит продукт), существует несколько различных способов расчета MTBF. По своей сути расчет MTBF — это простой процесс анализа того, как долго работает жесткий диск, твердотельный накопитель или другой продукт, и усреднение этого значения с учетом количества отказов. Это даст вам среднее время между отказами.

Например, продукт, который работает в течение 24 часов, прежде чем возникнет проблема, получит рейтинг MTBF, равный 24 часам. Продукт, который испытывает 2 сбоя в течение 24 часов, получит оценку MTBF 12 (то есть 24 часа / 2 сбоя = 12).

Конечно, это становится немного сложнее, когда вы добавляете расширенное время выполнения и множественные сбои, но основная концепция остается прежней.

Почему важна наработка на отказ?

Если вы хотите купить новый жесткий диск, MTBF является одним из наиболее важных факторов, которые следует учитывать. Жесткие диски предназначены для использования в качестве решений для долгосрочного хранения, позволяя вам получать доступ к своим файлам и данным спустя годы. Из-за этого вам захочется покупать продукты с большими значениями среднего времени безотказной работы. Продукты, которые могут долгое время работать без сбоев, с большей вероятностью сохранят ваши файлы, чем продукты с низким значением среднего времени безотказной работы.

Обнаружение сбоя не обязательно означает, что ваш диск полностью бесполезен, а ваши файлы потеряны. Тем не менее, вам, вероятно, придется пройти обширный процесс восстановления или обратиться к профессионалу, чтобы восстановить что-либо на диске. тоже голова болит(почти) полностью избежать, если вы покупаете правильный жесткий диск.

Используйте среднее время безотказной работы для совершения разумных покупок

Женщина держит два внешних жестких диска Seagate.

К сожалению, рейтинги MTBF не являются надежными. Многие производители рассчитывают свои значения MTBF, запуская привод в течение тысяч часов подряд и вычисляя, когда он, наконец, выйдет из строя. Но это не обязательно отражает то, как вы будете использовать накопитель в своем доме. Многие люди включают и выключают свои накопители через регулярные промежутки времени, удаляют и переустанавливают их или просто хранят их в помещении, температура которого выходит за пределы оптимальной для максимальной производительности, и все это может повлиять на точность приведенного значения среднего времени безотказной работы.

Из-за несоответствия того, как тестируются диски, по сравнению с тем, как они используются, может быть трудно определить истинное среднее время безотказной работы. Добавьте к этому тот факт, что некоторые производители могут использовать несколько иные формулы для расчета среднего времени безотказной работы, и становится ясно, что значения среднего времени безотказной работы не следует принимать за чистую монету.

Несмотря на свои недостатки, MTBF — один из лучших способов оценить надежность вашего жесткого диска. Еще одна безопасная ставка — покупать продукты от надежных брендов, таких как Western Digital и Seagate. Эти производители имеют репутацию производителей надежных продуктов, которые должны прослужить долгие годы, прежде чем возникнут проблемы.

Если вам нужно что-то действительно надежное, остановитесь на продуктах проверенных брендов с рейтингом MTBF более одного миллиона часов, таких как Seagate IronWolf Pro. Опять же, это не означает, что ваш накопитель будет работать в течение миллиона часов, прежде чем выйдет из строя (скорее, это среднее число, основанное на тестировании производителя), но такое большое число должно дать вам некоторое спокойствие при совершении покупки.

Если вы собираетесь использовать свой накопитель только для краткосрочного хранения, вам может сойти с рук что-то меньшее. Мы рекомендуем использовать самый надежный продукт, который вы можете себе позволить. Но если у вас ограниченный бюджет и вы будете использовать свой диск только для быстрой передачи файлов, то что-то более дешевое с меньшим MTBF может представлять собой хорошую ценность, например WD Red Plus.

Не уверен, где начать? Обязательно ознакомьтесь с нашим руководством, в котором указаны лучшие внешние жесткие диски. И если вы найдете красивый продукт, который не рекламирует свое среднее время безотказной работы, попробуйте найти его спецификацию у производителя. В качестве альтернативы вы можете посмотреть срок его гарантии, что даст вам представление о том, как долго прослужит накопитель, прежде чем вы начнете искать замену.

А АФР?

История надежности жестких дисков не заканчивается на среднем времени безотказной работы. В то время как многие компании все еще используют это значение для прогнозирования надежности, Seagate иногда будет использовать годовую частоту отказов (AFR) для своих продуктов. Опять же, это именно то, на что это похоже — вероятность того, что устройство выйдет из строя в течение года использования. В отличие от MTBF, вы хотите, чтобы это было как можно меньше. Самые надежные диски имеют показатель AFR ниже 1% и должны прослужить удивительно долго, прежде чем потребуется ремонт или замена.

Как и в случае с MTBF, помните, что AFR не дает вам индивидуальных показателей эффективности, а представляет собой агрегированное значение, основанное на контролируемом тестировании множества продуктов. Производительность вашего накопителя может отличаться от рекламируемой, но AFR (как и среднее время безотказной работы) — отличная отправная точка при поиске надежности.

19.09.2011

Безопасно ли хранить файлы на SSD?

Начнём с предыстории. SSD-накопители вышли на сцену в тот момент, когда компания Intel представила новую архитектуру процессоров Nehalem и одновременно объявила о том, что «узким местом» в новых ПК отныне являются не процессоры, а жёсткие диски, производительность которых, в самом деле, практически не прогрессировала. На форуме для разработчиков (IDF, Intel Developer Forum) 2008 года в Сан-Франциско компания Intel показала первые твердотельные диски и указало на те причины, вследствие которых обычные жёсткие диски снижают производительность системы с новым процессором Core i7. Три года спустя многочисленные тесты серийных SSD подтвердили, что твердотельные накопители действительно раскрывают потенциал новых процессоров, существенно повышая производительность системы.

Но производительность — далеко не единственный показатель для устройства хранения данных. Когда дело доходит до ваших данных, даже самый быстрый накопитель в мире ничего не стоит, если вы не можете быть уверены в том, что он может надёжно хранить информацию.

Данная тема ещё более актуальна сейчас, в связи с массовым переходом к техпроцессу 25 нм. Более тонкий техпроцесс предполагает снижение стоимости производства NAND-памяти, поэтому тенденция закономерна, и даже на 25 нм ячейках процесс не остановится.

За последние два года Intel дважды переходила на более тонкий техпроцесс NAND-памяти для SSD-накопителей: с 34 нм на 25 нм и с 25 нм на 20 нм

Вместе с тем, инженерам всё труднее преодолевать проблемы с памятью, произведённой по технологии 25 нм. Но нынешние покупатели всё ещё могут рассчитывать на лучшую производительность и надёжность новых твердотельных накопителей, по сравнению с предыдущим поколением. Снижение количества циклов перезаписи ячеек, обусловленное переходом на более тонкий техпроцесс, приходится как-то компенсировать.

Тип SSD Гарантированное число циклов перезаписи Общее количество записанных Тбайт (по формуле JEDEC) Ресурс накопителя (10 Гбайт/день, WA = 1,75)
25 нм 80 Гбайт 3000 68,5 Тбайт  18,7 лет

25 нм, 160 Гбайт

3000 137,1 Тбайт  37,5 лет
34 нм, 80 Гбайт 5000 114,2 Тбайт  31,3 лет
34 нм, 160 Гбайт 5000 228,5 Тбайт  62,6 лет

Таким образом, не нужно переживать по поводу количества циклов перезаписи, которые способен выдержать ваш SSD. Для предыдущего поколения твердотельных накопителей, где применялась NAND-память, изготовленная по 34-нм техпроцессу, гарантированное число циклов перезаписи составляло 5000. Иными словами, вы можете записывать и стирать ячейку NAND 5000 раз до тех пор, пока она не начнёт терять способность сохранять данные. Исходя из того, что среднестатистический пользователь пишет, максимум, 10 Гбайт в день, потребуется примерно 31 год, чтобы диск пришёл в негодность.

Для нового поколения SSD с 25-нм памятью продолжительность жизни диска составляет около 18 лет. Конечно, здесь мы очень упрощаем реальное положение вещей. Такие специфические для SSD проблемы, как усиление записи (write amplification), сжатие данных и сборка мусора могут влиять на реальный результат. Тем не менее, понятно, что нет веских причин сразу после покупки SSD-диска начинать отсчитывать часы до того момента, когда ему придёт конец.

С другой стороны, мы точно знаем, что некоторые SSD-накопители уже пришли в негодность. В этом легко убедиться, изучив данный вопрос на форумах или в отзывах интернет-магазинов. Но проблема в данном случае заключается не в исчерпании ресурса ячеек. Как правило, к выходу диска из строя приводит ошибка прошивки. Нам известны случаи, когда производители настоятельно рекомендуют подвергнуть новый диск перепрошивке, что способствует повышению надёжности, а иногда и заметному улучшению производительности накопителя.

Ещё одна причина выхода из строя SSD связана с электронной начинкой. Конденсатор или чип памяти могут прийти в негодность, что приводит к поломке диска. Конечно, мы ожидаем меньшего количества подобных проблем, по сравнению с обычными HDD, имеющими движущиеся детали, которые неизбежно выходят из строя по истечении определённого времени.

Но правда ли, что отсутствие движущихся деталей делает твердотельный накопитель надёжнее диска на магнитных пластинах? Этот вопрос волнует всё большее число компьютерных энтузиастов и IT-специалистов. Именно он заставил нас проанализировать реальную надёжность SSD, чтобы отделить факты от беллетристики.

Что мы знаем о накопителях?

SSD — относительно новая технология (во всяком случае, по сравнению с жёсткими дисками, возраст которых приближается к 60 годам). Таким образом, нам предстоит сравнить новый тип накопителей с технологией, проверенной временем.

Но что мы реально знаем о надёжности обычных жёстких дисков? На этот вопрос проливают свет два важных академических исследования.

В 2007 году компания Google обнародовала исследование надёжности 100 000 дисков потребительского уровня с интерфейсом PATA и SATA, применявшихся в дата-центрах Google.

Примерно в то же время доктор Бианка Шредер (Bianca Schroeder) совместно с экспертом доктором Гартом Гибсоном (Garth Gibson) провели расчёт частоты замены более 100 000 накопителей, которые применялись в одной из крупнейших национальных лабораторий США.

Разница между этими двумя исследованиями лишь в том, что во втором случае в исследовании участвовали накопители с интерфейсом SCSI и Fibre Channel, а не только PATA и SATA.

Тем, кто хочет более детально ознакомиться с результатами академических изысканий, мы советуем прочитать хотя бы второй — в 2007 году этот аналитический отчет был признан лучшим на конференции File and Storage Technologies (FAST ’07) в США. Если чтение подобных источников не входит в ваши планы, мы приводим здесь ключевые моменты, непосредственно затрагивающие интересующий нас вопрос.

Средняя наработка до отказа (MTTF)

Если речь идёт об измерении надёжности накопителя, можно вспомнить о таких двух показателях, как средняя наработка на отказ (MTBF — Mean Time Between Failures), под которой понимается среднее время между отказами, а также средняя наработка до отказа (MTTF — Mean Time To Failure), ключевым отличием которой является допущение, что после отказа система не может быть восстановлена.

Вот что пишет на этот счет Википедия:

В английском языке используется термин MTBF (Mean Time Between Failures) — среднее время между отказами или наработка на отказ, а также MTTF (Mean Time To Failure) — средняя наработка до отказа. Следует заметить, однако, что публикуемые величины MTBF/MTTF часто основываются на результатах ускоренных испытаний — в течение ограниченного времени, позволяющего выявить преимущественно долю производственного брака. В таком случае, заявленное значение MTBF говорит не столько собственно о надёжности, и тем более не о долговечности, сколько о проценте забракованных изделий. Например, MTBF порядка 1 млн/ч для жёсткого диска, очевидно, не означает 114 лет непрерывной безотказной работы — и не только потому, что эксперимент такой продолжительности не мог быть проведён, но и потому, что сам производитель назначает ресурс (срок службы) не более 5—10 лет и гарантийный срок 1—5 лет.

Рассмотрим в качестве примера накопитель Seagate Barracuda 7200.7, который имеет заявленный показатель наработки на отказ 600 000 часов.

В любой крупной выборке накопителей половина этих дисков выйдет из строя в первые 600 000 часов работы. Так как статистика отказов HDD в крупной выборке распределена относительно равномерно, следует ожидать, например, что каждый час будет выходить из строя один диск. При таком значении MTBF можно расчитать частоту отказов за год (Annualized Failure Rate, AFR), которая составит 1,44%.

Но исследования Google и доктора Бианки Шредер выявили совсем иные показатели. Дело в том, что число вышедших из строя накопителей не всегда соответствует количеству дисков, которые подлежали замене. Вот почему Шредер измеряла не рейтинг отказов (AFR), а интенсивность замены накопителей (Annualized Replacement Rate — ARR). Рейтинг ARR основывается на реальном количестве накопителей, заменённых согласно данным сервисных журналов:

В то время, как значение AFR по даташитам варьируются от 0,58% до 0,88%, наблюдаемые показатели замены дисков ARR составляют от 0,5% до 13,5%. Таким образом, наблюдаемый показатель ARR, в зависимости от конфигурации накопителей и их типа, может быть до 15 раз выше, чем значения AFR в соответствии с даташитами.

Производители жёстких дисков определяют число отказов иначе, чем это делаем мы, а потому не удивляет, что данные, которые они приводят, не соответствуют реальной надёжности накопителей. Обычно рейтинг MTBF определяется на основе ускоренного тестирования, информации о возврате винчестеров или с помощью тестирования отобранных дисков. Данные о возврате накопителей — весьма сомнительная информация. Как утверждает Google, «мы сталкивались… с ситуациями, когда тест накопителей давал «зелёный свет» дискам, которые неизбежно отказывали на практике».

Статистика отказов HDD по времени

Большинство пользователей считает, что график кривой отказа HDD имеет форму ванной. Вначале мы ожидаем, что многие диски выходят из строя вследствие так называемой «детской болезни», то есть различного рода заводских недоработок и непосредственно процесса «обкатки». Затем, по завершении начального периода, процент отказа дисков должен быть минимален. Наконец, в конце предполагаемого срока службы, кривая отказа HDD неотвратимо ползёт вверх, так как детали накопителя имеют определённый ресурс. Подобный ход мысли, который представляется вполне логичным, отражён на следующем графике.

Но этот график не соотвествует реальному положению вещей. Исследования Google и доктора Бианки Шредер показали, что отказы HDD с течением времени стабильно увеличиваются.

Надёжность дисков Enterprise-класса

При сравнении двух исследований можно представить, что показатель 1 000 000 MTBF для диска Cheetah намного ближе к заявленным в даташите MTBF 300 000 часов. Это означает, что накопители «потребительского» и Enterprise-класса имеют примерно одинаковый процент ежегодного выхода из строя, особенно когда сравниваются диски примерно равного объёма. Как утверждает директор по техническому планированию компании NetApp Вал Берцовичи (Val Bercovici), «… то, как дисковые массивы справляются с соответствующими отказами жёстких дисков, продолжает создавать в восприятии потребителя точку зрения, что более дорогие диски должны быть более надёжными. Одна из грязных тайн данной индустрии заключается в том, что большинство дисков Enterprise-класса состоит из тех же компонентов, что и накопители потребительского класса. Тем не менее, их внешние интерфейсы (FC, SCSI, SAS и SATA) и, что более важно, специфические особенности firmware, оказывает наибольшее влияние на поведение дисков потребительского и Enterprise-класса в реальных условиях».

Безопасность данных и RAID

Исследование Шредер охватывает диски Enterprise-класса, задействованные в больших RAID-массивах одной из крупнейших лабораторий по высокопроизводительным вычислениям. Как правило, мы ждём, что хранение данных в RAID-конфигурациях обеспечивает более высокий уровень безопасности, но отчёт Шредер обнаружил нечто удивительное.

Распределение времени между заменами диска показывает снижение частоты отказов, что означает, что ожидаемый промежуток времени до очередной замены диска постепенно увеличивается с тех пор, как был заменён предыдущий диск.

Таким образом, отказ одного накопителя в массиве повышает вероятность отказа другого накопителя. Чем больше времени прошло с последней замены диска, тем больше времени пройдёт до замены другого. Конечно, это имеет последствия с точки зрения реконструкции RAID-массива. После первого отказа в четыре раза возрастает вероятность того, что вы столкнётесь с очередным выходом диска из строя в течение того же часа. В пределах 10 часов вероятность отказа диска увеличивается только в два раза.

Температура

Ещё один неожиданный вывод можно сделать из отчёта Google. Исследователи брали показатели температуры SMART (Self-Monitoring, Analysis and Reporting Technology) – технологии, которую поддерживает большинство жёстких дисков. И обнаружили, что более высокая температура накопителя никак не коррелирует с более высокой частотой отказов. Судя по всему, температура оказывает воздействие на надёжность старых накопителей, но и в этом случае эффект не столь значителен.

Технология SMART — действительно умна?

SMART по-английски означает «умный», но действительно ли данная технология контроля состояния винчестера справляется со своей функцией? Если ответить кратко, то нет. Технология SMART создавалась для того, чтобы сообщать об ошибках диска достаточно рано для того, чтобы вы могли осуществить резервное копирование данных. Однако, согласно отчёту Google, более трети вышедших из строя накопителей не включили режим тревоги SMART.

Данный факт особо не удивляет, так как многие специалисты годами подозревали нечто подобное. В действительности, технология SMART оптимизирована на обнаружение механических неполадок, в то время как основную часть функциональности жёсткого диска обеспечивает электронная начинка. Вот почему некорректная работа HDD и неожиданные проблемы, вроде внезапного отключения питания, остаются незаметными для SMART до тех пор, пока не возникают ошибки, связанные с целостностью данных. Если вы рассчитываете на то, что SMART сообщит вам о грядущем выходе диска из строя, всё равно необходимо обеспечить дополнительный уровень защиты, если вы хотите быть уверены в сохранности данных.

Теперь посмотрим, как в противостоянии с жёсткими дисками ведут себя SSD-накопители.

Кратко о надёжности SSD

К сожалению, ни один из производителей жёстких дисков не публикует данные о возврате, но это же относится и к производителям SSD. Тем не менее, в декабре 2010 сайт Hardware.fr представил отчёт по частоте отказов HDD, полученный от родительской компании LDLC, являющийся одним из лидеров компьютерного ритейла во Франции. На сайте имелся следующий комментарий относительно того, как они рассчитывали данный показатель:

Частота возврата охватывает накопители, проданные между 1 октября 2009 и 1 апреля 2010, возвраты которых состоялись до октября 2010, то есть период эксплуатации составлял от 6 месяцев до года. Статистика по производителям основана на минимальной выборке от 500 экземпляров, а по моделям — на минимальной выборке от 100 экземпляров.

Как можно понять, речь идёт не об интенсивности отказов, а о количестве возвратов. Возможно, языковой барьер ответственен за то, как интерпретировали данный факт англоязычные IT-издания. Такие сайты, как Mac Observer и ZDNet недостаточно корректно обозначили эти данные как «частоту отказов», вероятно, основываясь на автоматическом переводе Google.

Продажи между 10.1.2009 и 4.1.2010, возвраты до 10.1.2010
Жёсткие диски объёмом 1 Тбайт

Модели дисков     Статистика возвратов
Hitachi Deskstar 7K1000.B     5,76%
Hitachi Deskstar 7K1000.C     5,20%
Seagate Barracuda 7200.11     3,68%
Samsung SpinPoint F1     3,37%
Seagate Barracuda 7200.12     2,51%
WD Caviar Green WD10EARS     2,37%
Seagate Barracuda LP     2,10%
Samsung SpinPoint F3     1,57%
WD Caviar Green WD10EADS     1,55%
WD Caviar Black WD1001FALS     1,35%
Maxtor DiamondMax 23     1,24%
Жёсткие диски объёмом 2 Тбайт
WD Caviar Black WD2001FASS     9,71%
Hitachi Deskstar 7K2000     6,87%
WD Caviar Green WD20EARS     4,83%
Seagate Barracuda LP     4,35%
Samsung EcoGreen F3     4,17%
WD Caviar Green WD20EADS     2,90%
SSD-диски
Intel     0,59%
Corsair     2,17%
Crucial     2,25%
Kingston     2,39%
OCZ     2,93%

Продажи между 4.1.2010 и 10.1.2010, возвраты до 4.1.2011
Жёсткие диски объёмом 1 Тбайт

Модели дисков     Статистика возвратов
Samsung SpinPoint F1     5,20%
WD Caviar Green (WD10EADS)     4,80%
Hitachi Deskstar 7K1000.C     4,40%
Seagate Barracuda LP     4,10%
WD Caviar RE3 WD1002FBYS     2,90%
Seagate Barracuda 7200.12     2,20%
WD Caviar Black WD1002FAEX     1,50%
Samsung SpinPoint F3     1,40%
WD Caviar Black WD1001FALS     1,30%
WD Caviar Blue WD10EALS     1,30%
WD Caviar Green WD10EARS     1,20%
Жёсткие диски объёмом 2 Тбайт
Hitachi Deskstar 7K2000     5,70%
WD Caviar Green WD20EADS     3,70%
Seagate Barracuda LP     3,70%
WD Caviar Black WD2001FALS     3,00%
WD Caviar Green WD20EARS     2,60%
WD Caviar RE4-GP WD2002FYPS     1,60%
Samsung EcoGreen F3     1,40%
SSD-диски
Intel     0,30%
Kingston     1,20%
Crucial     1,90%
Corsair     2,70%
OCZ     3,50%

Отказ диска подразумевает, что устройство больше не функционирует. Но возврат может предполагать множество причин. Это создаёт определённую проблему, ведь у нас нет никакой дополнительной информации по причинам возврата дисков: они могли быть мертвы ещё при поступлении в магазин, сломаться в течении срока эксплуатации или всего лишь имела место некая несовместимость с железом, помешавшая покупателю использовать накопитель.

Продажи между 10.1.2009 и 4.1.2010, возвраты до 10.1.2010
Top-3 лидеров возврата SSD Статистика возвратов Top-3 лидеров возврата HDD Статистика возвратов
OCZ Vertex 2 90 Гбайт 2,80% Seagate Barracuda 7200.11 160 Гбайт 8,62%
OCZ Agility 2 120 Гбайт 2,66% Samsung SpinPoint F1 1 Tбайт 4,48%
OCZ Agility 2 90 Гбайт 1,83% Hitachi Deskstar 7K2000 3,41%
Продажи между 4.1.2010 и 10.1.2010, возвраты до 4.1.2011
OCZ Agility 2 120 Гбайт 6,70% Seagate Barracuda 7200.11 160 Гбайт 16,00%
OCZ Agility 2 60 Гбайт 3,70% Hitachi Deskstar 7K2000 2 Tбайт 4,20%
OCZ Agility 2 40 Гбайт 3,60% WD Caviar Black WD2001FASS 4,00%

Эта информация лишь преумножает количество вопросов. Если основная часть продаж осуществлялась через интернет-магазин, то существенное влияние на статистику отказов могла оказать плохая упаковка или повреждения в ходе доставки. Более того, мы также не имеем никакой возможности выяснить, как покупатели использовали эти диски. Существенный разброс в частоте отказов лишь подчёркивает данную проблему. Например, число возвратов для Seagate Barracuda LP увеличилось с 2,1% до 4,1%, в то время как для Western Digital Caviar Green WD10EARS она упала с 2,4% до 1,2%.

Так или иначе, эти данные действительно ничего не говорят нам о надёжности. Но для чего, в таком случае, они вообще нужны? Вывод заключается лишь в том, что во Франции большинство покупателей были более чем удовлетворены покупкой Intel SSD и не возвращали их, в отличие от накопителей других брендов. Удовлетворение потребителя – тема интересная, но она намного менее интересна, чем реальная частота отказов. Так что продолжим наш анализ.

Отзывы дата-центров

Стоимость за гигабайт продолжает оставаться барьером, мешающим даже крупным организациям использовать тысячи SSD одновременно. Но даже с учётом того, что мы не имеем доступа к полноценным массивам твердотельных накопителей, не означает, что мы не можем осветить вопрос надёжности SSD в реальных условиях, основываясь на опыте небольших организаций. Мы решили связаться с нашими знакомыми, работающими в сфере IT, и получили довольно интересные отзывы нескольких дата-центров.

NoSupportLinuxHosting: меньше 100 SSD

 Зеркалирование загрузочного раздела на основе двух SSD-дисков Intel X25-V

Хостинг «No Support Linux» не приводит точное число установленных накопителей, но компания сообщает, что использует «немалое количество» SSD. Мы знаем, что они применяют менее сотни твердотельных дисков, которые задействованы следующим образом:

  • Intel X25-V объёмом 40 Гбайт используются как зеркалируемые загрузочные диски для тонких серверов и серверов хранения данных ZFS;
  • Intel X25-M объёмом 160 Гбайт используются в качестве кэша L2ARC в серверах ZFS;
  • Intel X25-E объёмом 32 Гбайт используются как зеркалируемые ZIL-тома в серверах ZFS.

Все эти диски используются не менее одного года, а некоторым из них недавно исполнилось два года. С учётом сказанного необходимо отметить, что компания не сталкивалась ни с одним фактом выхода из строя SSD-накопителя.

Когда мы спросили, какие преимущества даёт применение твердотельных дисков в серверах, мы получили следующий ответ:

В сочетании с ZFS и гибридными системами хранения, применение SSD-накопителей позволяет получить существенный прирост производительности, по сравнению с традиционными дисками на магнитных пластинах. Мы по-прежнему используем жёсткие диски в качестве основного хранилища, так что мы можем сохранить их преимущество в цене, одновременно извлекая преимущество от SSD по скорости. Рано или поздно, мы планируем полностью перевести наши сервера SAN на SSD-накопители. Но в течение 2011 году мы будем придерживаться гибридной системы хранения, используя ZFS.

InterServer

InterServer использует твердотельные диски лишь на серверах баз данных. В частности, на серверах с процессором Xeon используются накопители Intel X25-E (SSDSA2SH032G1GN), что позволяет извлечь максимальный результат от высокой пропускной способности накопителя. О каких значениях производительности здесь идёт речь? InterServer говорит нам о достижении 4514 запросов в секунду для сервера MySQL. На старом сервере Xeon, оснащённом IDE-винчестерами, количество запросов MySQL в секунду составляет 200-300. Нам известно, что твердотельные диски применяются в InterServer с 2009 года и с тех пор не было ни одного выхода диска из строя.

Итак, компания InterServer сообщила нам следующую информацию в контексте использования SSD:

Intel SSD — день и ночь в отношении надёжности, когда речь заходит о сравнении с некоторыми другими накопителями. Например, диски SuperTalent SSD имеют весьма высокий показатель отказов, включая модели FTM32GL25H, FTM32G225H и FTM32GX25H. По нашим оценкам, около двух третей этих дисков вышли из строя с начала эксплуатации. Причём, после выхода из строя информацию с этих дисков практически нельзя было восстановить. То есть накопитель просто исчезал из системы и его больше невозможно было прочитать. Жёсткие диски «умирают» более благородно и в большинстве случаев информацию с них легко восстановить. Но мы не можем сравнить их с Intel SSD, так как до сих пор ещё не сталкивались с выходом из строя последних.

Steadfast Networks: более 100 SSD

Steadfast Networks применяет около 150 SSD Intel, что делает данную компанию несколько более крупным пользователем SSD, чем две предыдущие. Применяются модели линейки X25-E (32 Гбайт и 64 Гбайт) и X25-M (80 Гбайт и 160 Гбайт). В меньшем количестве представлены накопители Intel X25-V40 объёмом Гбайт, а также установленные клиентами компании твердотельные диски других марок, такие как OCZ Vertex 2, SuperTalent и MTron Pro. Независимо от марки, все эти SSD применяются только в серверах баз данных либо в качестве кэша.

Steadfast Networks — почти 150 SSD в работе

За два года использования твердотельных накопителей Steadfast Networks лишь дважды имела опыт отказа дисков, потребовавших их замены, причём оба случая привели к необходимости восстановления данных с SSD. Возможность восстановления данных с вышедшего из строя твердотельного диска зависит от взаимодействия между контроллером и firmware. Сценарий, описанный представителем InterServer относительно дисков SuperTalent, является худшим из возможных — данные вообще не удалось восстановить. Но этот случай не является общим правилом для SSD.

Тип Количество Средний показатель AFR  Текущий срок жизни диска
SSD около 150 1,60% 2+
HDD    около 2800 5%  6+

Имея большую выборку, мы, наконец, нашли случаи отказов SSD. Но по сравнению с накопителями на магнитных пластинах их процент по-прежнему достаточно низок. Тем не менее, президент компании Steadfast Networks Карл Циммерман (Karl Zimmerman) считает, что это всё же занижает преимущества SSD и поясняет это следующим образом:

Просто мы получаем заметно более высокую производительность операций ввода/вывода [при использовании SSD] по меньшей цене, чем могли бы получить то же самое, используя обычные жёсткие диски. У нас много клиентов, которым нужна большая производительность I/O, чем могут дать четыре SAS-диска со скоростью вращения шпинделя 15 000 об/мин в конфигурации RAID 10, не говоря уже о том, что сам по себе подобный апгрейд требует перехода на сервера с большим шасси, поддерживающим более четырёх дисков, оснащённые крупной платой RAID и т. д. Другим конфигурациям необходимо больше 16 дисков со скоростью шпинделя 15 000 об/мин, чтобы обеспечить требуемый уровень производительности операций I/O. Переход на один SSD (или пары штук в RAID-конфигурации) значительно упрощает конфигурацию сервера и, в целом, делает её ощутимо дешевле. Достаточно сказать лишь о том, что обычно достаточно одного SSD, чтобы заменить не меньше четырёх жёстких дисков, причём показатель AFR для четырёх HDD составляет около 20%, в то время как для одного SSD он равен 1,6%.

Softlayer: около 5000 SSD!

 Softlayer: свыше 1000 SSD!

Люди из Softlayer — наши давние друзья, а ещё они создали крупнейшую в мире хостинг-компанию. Так что, о хранении данных они знают немало. Используя около 5000 SSD-накопителей, они предоставили нам впечатляющий объём данных для анализа. Вот отчёт, предоставленный компанией Softlayer.

Накопитель Число дисков в компании Рейтинг AFR Текущий срок жизни диска
Intel 64 GB X25-E (SLC) 3586   2,19% 2
Intel 32 GB X25-E (SLC)  1340 1,28% 2
Intel 160 GB X25-M (MLC)  11 0% менее 1
HDD-накопители  117 989 см. отчет Шредер  

Опыт Softlayer в отношении частоты отказов дисков SAS и SATA соотвествует отчёту Google, о которым мы говорили в начале данной статьи. Проще говоря, частота выхода из строя жёстких дисков прямо пропорциональна возрасту накопителя и на практике результаты очень близки к тому, что доказали исследования Google и Шрёдер. В первом году жизни процент отказов накопителей (AFR) составляет 0,5-1% и постепенно возрастает до 5-7% к пятому году жизни.

Частота выхода из строя жёстких дисков не удивляет, но показатель выхода из строя твердотельных накопителей оказался достаточно близок к результатам AFR по HDD. Конечно, SSD-диски эксплуатируются пока всего два года и нужно подождать, пока пройдёт 3-4 года с начала эксплуатации, чтобы узнать, сохранится или нет в отношении к SSD-дискам тенденция увеличения частоты отказов, характерная для магнитных накопителей.

Softlayer использует почти полностью SSD-накопители на основе SLC-памяти, чтобы избежать проблем с износом ячеек при многократных операциях перезаписи. Если основываться на сценариях использования компанией накопителей, то мы знаем, что ни один из дисков не вышел из строя по причине износа ячеек. Но многие из отказавших SSD вышли из строя без соответствующего предупреждения SMART. Это именно то, о чём мы уже неоднократно слышали от сотрудников дата-центров. Как отмечали специалисты компании InterServer, жёсткие диски имеют склонность выходить из строя более «благородно». SSD зачастую «умирают» внезапно, независимо от причины поломки, что отмечают многие конечные пользователи по всему миру. Опыт Softlayer более разнообразный, по сравнению с InterServer: некоторые накопители удалось восстановить, а другие — нет. Ни один из 11 накопителей Intel серии X25-M в Softlayer не вышел из строя, но дисков этой линейки слишком мало, чтобы на основе этого делать какие-либо выводы, да и эксплуатируются они менее года.

Так ли важна надёжность накопителя?

Несмотря на то, что твердотельные диски на SLC-памяти занимают всего лишь часть рынка SSD, мы получили намного больше информации по данному типу накопителей, чем по моделям, в которых используется более дешёвая память типа MLC. Даже с учётом того, что выборка накопителей в нашем обзоре составляет 1/20 от количества жёстких дисков в предыдущих обзорах, имеющаяся информация позволяет считать, что твердотельные диски на SLC-памяти нельзя назвать более надёжными, чем жёсткие диски с интерфейсом SAS и SATA.

Если вы потребитель, данный факт позволяет сделать важные выводы. Производители SSD пытаются акцентировать внимание на двух основных преимуществах данной технологии: лучшей производительности и надёжности. Однако, если хранить данные на SSD не более безопасно, чем на обычном жёстком диске, то производительность становится единственной реальной причиной для приобретения твердотельного диска.

Мы не утверждаем здесь, что производительность SSD не важна (или не впечатляет). Тем не менее, сама по себе технология SSD в данный момент имеет узкую специфику. Если бы вы собрались противопоставить твердотельные накопители против жёстких дисков по скоростным характеристикам, то обнаружили бы интересный факт: по производительности SSD-накопитель бюджетного класса превосходит HDD примерно на 85%. Твердотельный диск класса Hi-End обеспечивает преимущество над жёстким диском на 88%, что также не слишком впечатляет.

Эта достаточно тонкая разница объясняет, почему такие компании, как Intel, акцентируют внимание именно на надёжности твердотельных накопителей. На недавней презентации новой линейки SSD 320 компания Intel вновь попыталась обыграть этот мотив, используя информацию по возвратам дисков с сайта Hardware.fr в качестве доказательства надёжности своих изделий. Несомненно, именно отличная репутация SSD-накопителей Intel является ответом на вопрос, почему у нас так много информации по твердотельным дискам данной марки. Но данные Hardware.fr, которые приводит Intel, похоже, не соотвествуют реальному положению вещей.

Производительность SSD-накопителей будет лишь расти, в то время как наиболее продвинутые производители будут снижать стоимость таких дисков. Вместе с тем, это означает, что производителям придётся искать иные способы дифференцировать свои изделия.

До тех пор, пока в новых SSD — даже hi-end класса — продолжают выявляться явные баги с прошивками и прочие недоработки, потребители, заинтересованные, в первую очередь, в надёжности хранения данных, будут рассматривать технологию SSD как недостаточно зрелую. Поэтому мы полагаем, что на сегодняшний день именно надёжность должна стать основной мишенью эволюции SSD.

Intel дал потребителям серьёзный запас уверенности, несколько месяцев назад подняв срок фирменной гарантии для новой линейки SSD 320 с трёх до пяти лет. Конкурирующие модели SSD mainstream-класса, основанные на контроллерах SandForse первого и второго поколения, а также контроллере Marvell с интерфейсом SATA 6 Гбит/с, продолжают продаваться с трёхлетней гарантией. Накопители Enterprise-класса также, в основном, поставляются с пятилетней гарантией. Понятно, что это стимулирует вендоров продавать системы, оснащённые более надёжными накопителями, чтобы снизить расходы на гарантийное обслуживание в течение трёх или пяти лет. Но, конечно, трудно закрыть глаза на «детские болезни» технологии SSD, вроде необходимости обновления прошивки, которые, по большому счёту, затрагивают и производительность твердотельных накопителей.

Пояснения к вопросу о надёжности

Жёсткие диски и накопители на основе NAND-памяти иногда выходят из строя и это связано с различными факторами, обусловленными их уникальной архитектурой и конструкцией. Когда мы говорим о надёжности жёстких дисков, на ум приходит тот факт, что они основаны на механических деталях, часть из которых во время работы диска находится в движении. И хотя конструктивно жёсткие диски соответствуют очень строгим допускам, тем не менее, каждая деталь имеет определённый срок службы.

Мы также знаем, что SSD-накопители лишены подобных проблем. Их «твердотельная» природа в принципе исключает риск повреждения считывающей головки или выхода из строя шпинделя.

Но хранение данных на SSD неотъемлемо связано с виртуализацией, так как здесь нельзя физически разметить статическое LBA-пространство, как на жёстком диске. Поэтому возникают другие факторы, определяющие надёжность накопителя. Прошивка — это самый существенный из них, мы видим воздействие данного фактора всякий раз, когда слышим о неполадках в работе SSD.

За последние три года все баги в SSD-накопителях Intel всегда решались обновлением прошивки. Проблемы Crucial с управлением энергосбережением модели m4 были решены выходом новой прошивки. И мы видели, что самый известный партнёр SandForce, — компания OCZ — ответила на многочисленные жалобы потребителей выходом сразу нескольких прошивок. Фактически, случай SandForce наиболее показателен. Поскольку производители SSD-дисков могут использовать различные прошивки в качестве средства дифференциации моделей, диски на основе контроллеров SandForce от разных производителей, очевидно, могут иметь различные баги, свойственные конкретной прошивке. Данный факт, несомненно, только усложняет задачу повышения надёжности твердотельных накопителей.

Если оставить специфику SSD в стороне, то теперь нам необходимо определить надёжность дисков различных производителей. Проблема здесь заключается в том, что способы, при помощи которых каждый вендор, реселлер или потребитель измеряет данный показатель, несколько различается, что делает объективное сравнение практически невозможным.

В частности, мы были очень впечатлены презентацией SSD-накопителей Intel на IDF 2011, где акцентировалось внимание на надёжности. Но в дискуссии с компанией ZT Systems, данные которой приводила Intel, мы выяснили, что в приводимом рейтинге AFR 0,26% не учитывается количество накопителей и речь идёт лишь об «подтверждённых» ошибках. На самом деле, если вы — IT-менеджер, то для вас важна и частота «незарегистрированных» ошибок. Речь идёт о ситуациях, когда вы отсылаете дефектное изделие продавцу, а он отвечает, что с диском всё в порядке. Это не означает, что диск свободен от неполадок, так как причина могла заключаться в конкретной конфигурации либо иных прикладных факторах. На самом деле, существует немало реальных примеров такого рода.

«Незарегистрированные» ошибки, как правило, случаются в 2-3 раза чаще, чем «утверждённые». На самом деле, компания ZT System приводит другие данные по частоте «неутверждённых» ошибок — 0,43% для 155 000 накопителей Intel X25-M. Но мы снова сталкиваемся с тем фактом, что эти данные не отсортированы по сроку службы накопителей, так как диски рассматриваются в группах. Согласно техническому директору ZT System Кейси Черетани (Casey Cerretani), конечная величина в данный момент лишь рассчитывается, но примерно мы можем говорить о показателе AFR 0,7% в первый год эксплуатации. Конечно, этот показатель по-прежнему ничего не значит с точки зрения надёжности в долгосрочной перспективе, что является одной из главных проблем при оценке надёжности твердотельных накопителей в сравнении с HDD.

Основной вывод состоит в том, что теперь мы знаем, какое влияние различные методы оценки надёжности накопителей оказывают на конечный результат. Более того, лишь время покажет, насколько надёжность SSD-накопителей превосходит соответствующий показатель для HDD. Зато теперь вы точно знаете, что сейчас какой-либо однозначный вывод сделать невозможно, так как очень много исходных данных вызывают сомнения.

В качестве заключения

Наш отчёт по дата-центрам охватывает только частоту выхода из строя SSD Intel, так как накопители именно этого производителя в настоящий момент пользуются наибольшим доверием у крупных предприятий. Учитывая проблемы с определением надёжности SSD, мы преднамеренно не ставим задачу найти самого надёжного производителя, но сотрудники отдела маркетинга Intel, судя по всему, не зря получают свою зарплату.

В исследовании Google отмечается следующее: «Известно, что частота отказов в значительной мере зависит от модели, производителя и возраста диска. Наши данные не противоречат этому факту. Но большинство отмечаемых со временем сбоев связаны именно с возрастом диска».

Опыт, о котором мы узнали от дата-центров, применим ко всем SSD. Один из директоров предприятий сообщил нам, что считает цену OCZ Vertex 2 замечательной, но их надёжность — ужасной. В конце прошлого года его компания запускала некую новую систему, по случаю чего было закуплено около 200 накопителей Vertex 2, 20 из которых не работали по прибытию. И это не первый человек, который рассказывает нечто подобное.

Что на практике это значит для SSD?

Давайте взглянем на всё изложенное здесь в некой рациональной перспективе. Вот что мы узнали о надёжности жёстких дисков из исследований Google и Шрёдер:

  1. MTBF ничего не говорит о надёжности;
  2. Ежегодная частота отказов (AFR) выше, чем заявляет производитель;
  3. Диски не имеют тенденцию выходить из строя в первый год эксплуатации. Частота отказов постепенно увеличивается с возрастом диска;
  4. SMART не является надёжной системой, определяющей скорый выход диска из строя;
  5. Частота отказов «потребительских» дисков и накопителей «enterprise»-класса очень близка;
  6. Отказ одного диска в массиве увеличивает риск подобного поведения других дисков;
  7. Температура почти не оказывает влияния на надёжность накопителя.

Благодаря Softlayer с их парком SSD в 5000 штук, мы знаем, что первые четыре утверждения также применимы к SSD. Как мы видели в обоих исследованиях HDD, существенно влияние на их надёжность оказывает контроллер, прошивка и интерфейс (SAS против SATA). Для SSD-дисков основными факторами также являются контроллер и прошивка, причём их роль даже выше. Если правда, что износ ячеек из-за многократных операций перезаписи не играет никакой роли в статистике отказов SSD-накопителей и качество применяемой в «потребительских» дисках MCL-памяти сравнимо с SLC, напрашивается вывод, что твердотельные диски Enterprise-класса, в целом, не надёжнее «потребительских».

Меньше дисков — выше надёжность

Конечно, для систем хранения данных корпоративного класса важна не только надёжность, но и производительность. Чтобы достичь высокой производительности операций ввода/вывода, IT-специалистам приходится создавать RAID-массивы на основе жёстких дисков со скоростью шпинделя 15 000 об/мин. Нередко апгрейд для увеличения количества операций I/O приводит к покупке нового сервера, оснащённого более мощной RAID-платой и позволяющего установить больше накопителей. Учитывая превосходные характеристики I/O для твердотельных дисков, в случае их использования можно было бы ограничиться намного более скромной конфигурацией сервера, не говоря об экономии энергии и снижении температуры.

Здесь есть ещё один интересный момент.

Частота выхода из строя отдельных дисков для большого массива будет выше: по данным исследования Шредер, после отказа одного диска в массиве возрастает вероятность выхода из строя других дисков. Кроме того, существенно выше будет вероятность отказа одного из дисков в массиве, так как здесь начинает играть роль математический фактор.

В данном случае мы не поднимаем тему сохранности данных, что зависит от уровня RAID и других факторов. Понятно, что с точки зрения сохранности данных один SSD не заменит два зеркалируемых HDD, несмотря на то, что вероятность выхода из строя для него будет ниже, чем для одного из дисков в системе. Однако, если речь идёт о крупной RAID-системе, то достаточно очевидно, что надёжнее иметь конфигурацию на четырёх SSD-дисках, чем сравнимую по скорости систему на 16 HDD.

Сам факт использования SSD не снимает необходимости избыточности данных для RAID либо резервного копирования. Но вместо того, чтобы создавать громоздкие RAID-конфигурации на HDD, можно ограничиться значительно более простым решением на основе твердотельных дисков. Как пишет Робин Харрис на сайте StorageMojo: «Забудьте RAID, просто копируйте данные три раза».

Избыточность хранения данных на SSD не приводит к высокой стоимости. Если вы работаете в среднем и крупном бизнесе, вам нужно лишь скопировать информацию с производительного SSD-диска на HDD, который служит для резервного копирования.

Идея получить более высокую производительность, потратив меньше денег, не нова. SSD-диски в самом деле позволяют получить чрезвычайно высокое количество операций ввода/вывода, высокую надёжность и обеспечить избыточность хранения данных — причём цена такого решения будет ниже, чем в случае громоздкой RAID-конфигурации. Вместе с тем, массив на HDD может превосходить свой аналог на SSD в плане объёма дискового пространства. На сегодняшний день, цена за гигабайт для твердотельных дисков всё ещё слишком высока и к вопросу размещения данных на SSD следует подойти с умом, ведь хранить на них все данные вряд ли получится.

О том же для десктопов

Всё вышесказанное относится к серверам. Возложим ответственность за принятие решения о переходе или не переходе на SSD на сотрудников дата-центров.

Если же разговор заходит о десктопных системах, то мы не имеем оснований предполагать, что SSD надёжнее жёстких дисков. Так или иначе, недавние события с отзывами SSD-дисков и багами в прошивках достаточно ярко показали, что ограниченное число циклов перезаписи ячеек NAND на данный момент является далеко не основным недостатком технологии.

В конце концов, любой накопитель представляет собой электронное устройство, независимо от того, есть ли там движущихся детали или нет. И тот факт, что твердотельные диски не имеют таких деталей, в полной мере не говорит об их надёжности.

Мы задали вопрос специалистам из CMRR (Center for Magnetic Recording Research) — научного центра, располагающего исчерпывающей информацией о системах хранения данных на магнитных носителях.

Доктор Гордон Хьюз (Gordon Hughes), один из основных разработчиков технологий SMART и Secure Erase, отмечает, что и HDD, и SSD в своей эволюции расширяют границы соответствующих технологий. И когда это происходит, не ставится цели создать самые надёжные накопители в мире.

Как отмечает доктор Стив Свансон (Steve Swanson), исследующий NAND-память: «Не похоже на то, чтобы производители делали свои диски столь надёжными, как они могут делать. Они делают диски настолько надёжными, насколько это целесообразно с точки зрения финансовых затрат». Рынок определяет стоимость компонентов накопителя и она не может быть выше определённой величины.

Так, например, производители NAND-памяти продолжают выпуск 50-нм чипов, обладающих более высоким ресурсом циклов перезаписи, чем 34-нм и 25-нм чипы. Но стоимость $7-8 за гигабайт не позволит использовать такие модули в накопителях, ориентированных на массовый рынок.

Возможно, самое большое раздражение вызывает тот факт, что каждый вендор продаёт жёсткие диски и SSD, не представляя объективных данных об их надёжности, хотя все они определенно знают об истинном положении вещей, продавая миллионы устройств в год (по данным IDC, в 2009 году продано 11 миллионов SSD) и фиксируя каждый возврат.

Несомненно, частота поломок зависит от многих факторов, часть из которых находится вне компетенции производителя (качество доставки, специфика эксплуатации накопителя). Но при благоприятном стечении обстоятельств HDD достигают 3% AFR на пятый год эксплуатации, что вполне сравнимо с аналогичным показателем для SSD. Не удивительно, что специалисты из CMRR говорят о том, что на сегодня SSD не обеспечивают более высокую надёжность, по сравнению с жёсткими дисками.

Надёжность накопителей — чувствительная тема и мы потратили немало времени, общаясь с вендорами и ритейлерами, стремясь провести собственное исследование SSD, предназначенных для массового рынка. И единственный вывод, который можно сделать прямо сейчас, заключается в том, что к любой информации от производителя SSD необходимо относиться с определённой долей скептицизма.

Стоит отметить, что SSD Intel на сегодняшний день пользуются максимальным доверием у потребителей и информация от дета-центров неизменно основывается на SLC-накопителях этой марки как «золотом стандарте» для SSD. Но согласно доктору Хьюзу, нет никаких оснований полагать, что продукты Intel более надёжны, чем лучшие модели HDD. У нас нет возможности исследовать интенсивность отказов SSD, находящихся в эксплуатации более двух лет, поэтому вполне возможно, что эта статистика изменится в ту или иную сторону.

Стоит ли сейчас воздерживаться от покупки SSD? Если вы защищаете свои данные регулярно делая резервные копии файлов, то нет никаких причин избегать использования твердотельных накопителей. Например, мы применяем SSD на всех наших тестовых платформах и в большинстве рабочих станций.

Цель данного обзора состояла в том, чтобы определиться, действительно ли SSD так надёжны, что о резервном копировании хранимой на них информации можно забыть как о пережитке прошлого. Теперь мы знаем ответ на этот вопрос.

Надёжность жёстких дисков хорошо изучена в массивных исследованиях и это не удивительно, так как этот тип накопителей используется уже очень давно. Со временем мы, несомненно, узнаем значительно больше о надёжности SSD.

Получайте новости с raidshop на почту

Получать спец. предложения компании о распродажах (1 раз в месяц в среднем) Получать новости по мере выхода (1 раз в день в среднем)

Получать еженедельный IT-дайджест новостей

Не все жёсткие диски одинаково полезны. Кто бы подумал!

В блоге компании Backblaze можно обнаружить любопытные записи. Среди прочих услуг эта компания предоставляет платный сервис по удалённому хранению данных. «Парк» дисковой подсистемы ЦОД Backblaze насчитывает примерно 25 тысяч накопителей. Время эксплуатации отдельных моделей превышает четыре года. В принципе, на таком количестве жёстких дисков уже можно собрать более-менее внятную статистику. Свежая публикация в блоге Backblaze как раз позволяет понять, какие жёсткие диски можно покупать, а какие лучше обойти стороной. В то же время надо понимать, что жизнь каждого отдельного накопителя — это своя история с неизвестным концом. Месяц назад автор этих строк с удивлением увидел в одном из компьютеров работающий жёсткий диск компании IBM серии DTLA. А говорили, что не каждый «дятел» долетит до середины года. Выходит, отдельные представители «стучат» аж 12-й год подряд.

data hdd 01

Итак, компания Backblaze в конце 2013 года располагала 27134 накопителями. Что особенно ценно, все эти диски — это модели того или иного потребительского класса. Иначе говоря, то, что нам нужно. Приоритет при покупке отдавался менее дорогим моделям. Но если можно было выбрать модель чуть дороже, но с лучшими характеристиками, то приобреталась модель подороже. Как видно из таблицы, в арсенале ЦОД Backblaze больше всего накопителей компаний Seagate и Hitachi. Заметно меньше HDD компании Western Digital и совсем мало дисков компаний Toshiba и Samsung. Поэтому по двум последним производителям статистика непрезентабельная и её нет. Перед тем как выбрать определённую модель накопителя, компания тестирует образец в экстремальных режимах работы и потом две недели изучает её под рабочей нагрузкой. На данном этапе важно отсечь жёсткие диски, которые изначально спроектированы для других условий эксплуатации либо имеют конструкторские недоработки. Последующая замена, пусть даже она будет по гарантии, это затраты времени, которое в буквальном смысле деньги.

blog fail drives manufactur

В общем случае статистика отказов за год выглядит следующим образом (см. график выше). На первый взгляд, выбор накопителей Seagate был ошибкой, ведь ничто другое не «высыпается» с такой интенсивностью. Но это только на первый. Чуть ниже вы увидите таблицу с более подробными данными, где будет приведено время работы HDD и отказы с разбивкой по моделям. Вот тогда можно будет сделать какие-то выводы. Пока же компания уточняет, что она однозначно забраковала бы накопители Western Digital Green 3TB и Seagate 2TB LP. Данные диски в режиме простоя агрессивно сбрасывают скорость. При обращении к ним число оборотов увеличивается. Поскольку это происходит постоянно, накопление ошибок происходит очень быстро, что ведёт к отказам накопителей. Испытания в специальном боксе с демпфирующими прокладками показали, что погасив рабочие вибрации можно продлить срок эксплуатации «зелёных» накопителей. Но всё равно они не подходят для выбранных нагрузок. Оптимальный выбор для таких HDD — это хранить цифровой «мусор» на полочке у стола.

data hdd 02

Статистика по моделям обширная и требует вдумчивого рассмотрения. В общем, компания отмечает, что она «счастлива» работать с HDD Seagate Barracuda LP 1.5TB. За почти четыре года эксплуатации из строя вышел только один из десяти дисков. Все эти накопители, как, собственно, и остальные, работают в круглосуточном режиме в RAID-конфигурациях. Для такого режима 9,9% отказа за четыре года — это терпимо. Но вот «семитысячники» — Seagate Barracuda 7200 1.5 (ST31500341AS) показали себя хуже. Чем старше, тем чаще они выходили из строя. За те же четыре года отказало 25,4 % жёстких дисков этой серии. Но настоящим провалом стали накопители Seagate Barracuda Green 1.5TB. Они проработали в среднем неполный год и вышли с немыслимым рейтингом 120%. Это объясняется тем, что часть накопителей была заменена по гарантии. Также в компании считают, что им на замену присылали восстановленные модели, а это не способствовало улучшению статистики. Остальные модели HDD Seagate показали себя хорошими рабочими лошадками и в дальнейшем будут заменяться и пополняться серией Seagate Desktop HDD.15 (ST4000DM000).

blog survival drives by mon

рекомендации

RTX 3070 Ti за 55 тр — цена как при курсе 62

<b>13900K</b> в Регарде по СТАРОМУ курсу 62

S23 Ultra — цены нехило пошли вниз

Компьютеры от 10 тр в Ситилинке

MSI 3060 за 30 тр в Регарде

Много 4080 от 100тр — цены в рублях не растут

16 видов <b>4070 Ti</b> в Ситилинке — от 80 тр

3070 Gigabyte Gaming за 50 тр с началом

3070 Gigabyte Gaming за 50 тр в Регарде

3060 Ti Gigabyte дешевле 40 тр в Регарде

13700K дешевле 40 тр в Регарде

Вакансия: Автор новостей широкого профиля

3080 за 70тр с началом несмотря на курс

3060 дешевле 30тр цена — как при курсе 68

15 видов 4090 в Ситилинке по норм ценам

Ищем PHP-программиста для апгрейда конфы

13600K дешевле 30 тр в Регарде

Накопители компании Hitachi без нареканий. Впрочем, одно есть — были бы дешевле, покупали бы только эти. С накопителями Western Digital тоже можно жить, если не смотреть в сторону «зелёной» серии (которая предназначена совсем для другого). Зато серия Western Digital Red 3TB (WD30EFRX) отлично себя зарекомендовала и в дальнейшем данный ЦОД планирует пополнять парк накопителей также за счёт этих моделей. Если суммировать всю статистику по брендам и оценить степень снижения со временем надёжности, то можно увидеть следующее. Накопители компаний Western Digital и Hitachi даже после трёх лет эксплуатации — после окончания фирменного срока гарантии — работали «как новенькие». Накопители Seagate начали чаще выходить из строя после двух лет эксплуатации. Однако к трём годам, если учесть режимы эксплуатации, отказы всё ещё оставались терпимыми.

Понравилась статья? Поделить с друзьями:

А вот еще кое-что интересное для вас:

  • Для чего нужен дубликаты госномера авто. 10 причин сделать себе его
  • Разновидности похоронных бюро и сферы их деятельности
  • Как быстро изучить английский язык? Плюсы и минусы онлайн школы по изучения языков
  • Эффективное создание текста вакансии: ключевые шаги и рекомендации
  • Размещение серверов в дата-центрах: преимущества и недостатки