Car-tech

Superkomputer terberat jatuh paling keras, peneliti menunjukkan

Kwantowy komputer Google pokonał tradycyjny superkomputer? - Technologie Przyszłości

Kwantowy komputer Google pokonał tradycyjny superkomputer? - Technologie Przyszłości

Daftar Isi:

Anonim

Ketika superkomputer tumbuh lebih kuat, mereka juga akan tumbuh lebih rentan terhadap kegagalan, berkat peningkatan jumlah komponen bawaan. Beberapa peneliti pada konferensi SC12 baru-baru ini minggu lalu di Salt Lake City, Utah, menawarkan solusi yang mungkin untuk masalah yang sedang berkembang ini.

Sistem komputasi kinerja tinggi (HPC) saat ini dapat memiliki 100.000 node atau lebih-dengan setiap node dibangun dari beberapa komponen memori, prosesor, bus dan sirkuit lainnya. Secara statistik, semua komponen ini akan gagal pada titik tertentu, dan mereka menghentikan operasi ketika mereka melakukannya, kata David Fiala, seorang mahasiswa PhD di North Carolina State University, saat berbicara di SC12.

Masalahnya bukan yang baru, tentu saja. Ketika Lawrence Livermore National Laboratory's 600-node ASCI (Accelerated Strategic Computing Initiative) Superkomputer Putih mulai online pada tahun 2001, itu memiliki waktu rata-rata antara kegagalan (MTBF) hanya lima jam, sebagian berkat kegagalan komponen. Kemudian upaya tuning telah meningkatkan MTBF ASCI White hingga 55 jam, kata Fiala.

Namun seiring dengan bertambahnya jumlah node superkomputer, maka masalahnya juga. "Sesuatu harus dilakukan mengenai hal ini. Ini akan menjadi lebih buruk ketika kita bergerak ke luar negeri," kata Fiala, mengacu pada bagaimana superkomputer pada dekade berikutnya diharapkan memiliki sepuluh kali kekuatan komputasi yang model-model saat ini lakukan.

Teknik hari ini untuk menangani kegagalan sistem mungkin tidak skala sangat baik, kata Fiala. Dia mengutip pos pemeriksaan, di mana program yang sedang berjalan dihentikan sementara dan negara bagiannya disimpan ke disk. Jika program crash, sistem dapat me-restart pekerjaan dari pos pemeriksaan terakhir.

NCSUDavid Fiala Masalah dengan pemeriksaan, menurut Fiala, adalah karena jumlah node yang bertambah, jumlah overhead sistem diperlukan untuk melakukan pemeriksaan pos tumbuh juga-dan tumbuh pada tingkat eksponensial. Pada superkomputer 100.000-node, misalnya, hanya sekitar 35 persen dari kegiatan akan terlibat dalam melakukan pekerjaan. Sisanya akan diambil oleh pos pemeriksaan dan-harus operasi kegagalan-pemulihan sistem, Fiala diperkirakan.

Karena semua perangkat keras tambahan yang diperlukan untuk sistem exascale, yang dapat dibangun dari satu juta atau lebih komponen, keandalan sistem akan memiliki untuk ditingkatkan sebanyak 100 kali agar tetap sama dengan MTBF yang dipenuhi superkomputer hari ini, kata Fiala.

Lama, saran yang bagus: membuat cadangan data

Fiala mempresentasikan teknologi yang dia dan rekannya kembangkan yang dapat membantu meningkatkan keandalan. Teknologi ini menangani masalah korupsi data senyap, ketika sistem membuat kesalahan yang tidak terdeteksi menulis data ke disk.

Pada dasarnya, pendekatan para peneliti terdiri dari menjalankan banyak salinan, atau "klon" suatu program, secara bersamaan dan kemudian membandingkan jawabannya. Perangkat lunak, yang disebut RedMPI, dijalankan bersama dengan Message Passing Interface (MPI), perpustakaan untuk membagi aplikasi yang sedang berjalan di beberapa server sehingga bagian-bagian yang berbeda dari program dapat dijalankan secara paralel.

RedMPI memotong dan menyalin setiap MPI pesan yang dikirimkan oleh aplikasi, dan mengirim salinan pesan ke klon (atau klon) dari program. Jika klon yang berbeda menghitung jawaban yang berbeda, maka angka-angka tersebut dapat dihitung ulang dengan cepat, yang akan menghemat waktu dan sumber daya dari menjalankan seluruh program lagi.

"Menerapkan redundansi tidak mahal. Mungkin tinggi dalam jumlah jumlah inti yang dibutuhkan, tetapi ia menghindari kebutuhan untuk menulis ulang dengan restart titik balik, "kata Fiala. "Alternatifnya adalah, tentu saja, hanya menjalankan kembali pekerjaan sampai Anda berpikir Anda memiliki jawaban yang benar."

UCSCEthan Miller

"Saya pikir ide melakukan redundansi sebenarnya adalah ide yang bagus. [Untuk] perhitungan yang sangat besar, melibatkan ratusan ribu node, pasti ada kemungkinan kesalahan akan merayap masuk," kata Ethan Miller, seorang profesor ilmu komputer di Universitas California Santa Cruz, yang menghadiri presentasi. Namun dia mengatakan pendekatan itu mungkin tidak cocok mengingat jumlah lalu lintas jaringan yang mungkin dihasilkan oleh redundansi tersebut. Dia menyarankan untuk menjalankan semua aplikasi pada set node yang sama, yang dapat meminimalkan traffic trafik.

Dalam presentasi lain, Ana Gainaru, mahasiswa Ph.D dari University of Illinois di Urbana-Champaign, mempresentasikan teknik analisis log file untuk memprediksi kapan kegagalan sistem akan terjadi.

Pekerjaan menggabungkan analisis sinyal dengan penambangan data. Analisis sinyal digunakan untuk mengkarakterisasi perilaku normal, jadi ketika kegagalan terjadi, itu dapat dengan mudah terlihat. Penambangan data mencari korelasi antara kegagalan yang dilaporkan terpisah. Peneliti lain telah menunjukkan bahwa beberapa kegagalan kadang-kadang berkorelasi satu sama lain, karena kegagalan dengan satu teknologi dapat mempengaruhi kinerja pada orang lain, menurut Gainaru. Misalnya, ketika sebuah kartu jaringan gagal, ia akan segera melibas proses sistem lain yang bergantung pada komunikasi jaringan.

Para peneliti menemukan bahwa 70 persen dari kegagalan yang berkorelasi memberikan celah peluang lebih dari 10 detik. Dengan kata lain, ketika tanda pertama kegagalan telah terdeteksi, sistem mungkin memiliki hingga 10 detik untuk menyimpan pekerjaannya, atau memindahkan pekerjaan ke node lain, sebelum kegagalan yang lebih penting terjadi. "Prediksi kegagalan dapat digabungkan dengan teknik toleransi kesalahan lainnya," kata Gainaru.

Joab Jackson mencakup perangkat lunak perusahaan dan teknologi umum untuk

The IDG News Service. Ikuti Joab di Twitter di @Joab_Jackson. Alamat e-mail Joab adalah [email protected]