Car-tech

Sistem Pengenalan Ucapan Harus Lebih Cerdas, Profesor Berkata

CS50 Lecture by Steve Ballmer

CS50 Lecture by Steve Ballmer
Anonim

Mereka yang benci berbicara di telepon untuk sistem pengenalan suara otomatis dapat mengambil pelipur lara dalam kenyataan bahwa para ilmuwan bekerja untuk membuat sistem seperti itu lebih hidup dan lebih tidak menyebalkan untuk digunakan.

"Dari pengalaman konsumen, orang-orang merasa sistem ini sangat membuat frustrasi," kata James. Allen, yang merupakan ketua ilmu komputer di University of Rochester, berbicara sebelum konferensi SpeechTEK 2010, yang diadakan di New York minggu ini.

Kebanyakan sistem pengenalan ucapan terkomputerisasi dapat memahami apa yang dikatakan manusia hingga 98 persen dari waktu, namun orang masih tidak bisa menggunakan sistem help-desk telepon otomatis. Kunci untuk membuat sistem ini kurang membuat frustasi untuk digunakan adalah dengan memberi mereka pemahaman yang lebih dalam tentang bahasa dan membuatnya lebih interaktif, kata Allen.

[Bacaan lebih lanjut: PC baru Anda membutuhkan 15 program gratis yang luar biasa ini]

Saat ini, departemen layanan pelanggan dari sebagian besar organisasi besar menawarkan sistem bantuan berbasis telepon otomatis. Seorang pengguna memanggil nomor bantuan dan suara buatan menanyakan kepada penelepon serangkaian pertanyaan. Sebagian besar sistem ini didasarkan pada kerangka kerja yang pada dasarnya adalah pohon keputusan besar. Dengan sistem seperti itu, "Anda tidak tahu apa yang diinginkan orang itu, Anda mengikuti skrip," katanya.

Sistem sebenarnya adalah gabungan dari sejumlah teknologi yang berbeda. Salah satunya adalah pengenalan suara, atau kemampuan komputer untuk memahami, atau berhasil menerjemahkan ke dalam teks, apa yang dikatakan pembicara.

Teknologi lainnya, pemrosesan bahasa alami (NLP), mencoba mengubah pesan pembicara menjadi perintah yang dapat dieksekusi oleh komputer, atau yang dapat diringkas untuk operator manusia.

Langkah besar telah dilakukan dalam pengenalan suara dan NLP selama beberapa dekade terakhir, tetapi mereka tampaknya membawa sebagian besar frustrasi kepada pengguna mereka. "Saya hanya menelepon bank ketika saya punya masalah dan melawan sistem ini. [Saya bertanya] apa yang bisa saya jawab untuk dapat dilakukan seseorang secepat mungkin," kata Allen.

Karya penelitian akademis Allen telah dalam menemukan cara-cara "kita dapat berbicara dengan mesin dengan cara yang sama kita dapat berbicara dengan seseorang," katanya.

Percakapan antara dua orang bisa tepat dalam hal komputer mengalami kesulitan pencocokan. Allen menunjuk ke beberapa pekerjaan awal yang ia lakukan sebagai seorang mahasiswa pascasarjana, di mana ia merekam percakapan di sebuah meja informasi stasiun kereta. Dalam satu interaksi, seorang penumpang berjalan ke stan dan berkata "8:50 ke Windsor," dan petugas menjawab "Gerbang 10, 20 menit terlambat." Sementara petugas tahu persis informasi apa yang dicari oleh si penyelidik, sistem komputer akan menemukan pernyataan pertama penumpang itu membingungkan.

Cara Allen melihatnya, dua elemen hilang dari sistem modern: Kemampuan untuk menganalisis apa yang dikatakan pembicara dan kemampuan untuk berbicara dengan pembicara untuk mempelajari lebih lanjut tentang apa yang ingin disampaikan pembicara.

"Banyak NLP di luar kebiasaan cenderung dangkal. Kami tidak memiliki teknologi yang memberi Anda arti dari kalimat," dia berkata. Alat pengolah statistik dan layanan definisi kata seperti WordNet dapat membantu mendefinisikan kata tetapi juga hubungan kata, sehingga sistem akan tahu bahwa, misalnya, "anak perusahaan" adalah bagian dari "perusahaan."

Lainnya komunikasi dua arah antara pengguna dan komputer juga diperlukan. Ketika berbicara tentang kebutuhan mereka, orang dapat memberikan informasi tanpa urutan tertentu. Komputer harus mengumpulkan informasi ini dan tidak membebani pengguna dengan pertanyaan yang jawabannya sudah disediakan.

"Ini adalah masa depan, ini benar-benar sistem yang Anda inginkan, dan dapatkah kita membuat dialog sistem yang dapat mendukung berbagai kompleksitas ini, "katanya.

Untuk mengilustrasikan ide ini, Allen dan tim peneliti merancang sebuah program yang disebut Cardiac yang dapat meniru pertanyaan yang akan diajukan perawat kepada pasien dengan penyakit jantung. Program ini dibuat dengan pendanaan dari Institut Kesehatan Nasional AS. Dengan sistem ini, sekali pengguna memberikan informasi, sistem tidak akan meminta lagi, kata Allen. Sistem akan berpikir tentang materi apa yang sudah disediakan dan apa yang masih dibutuhkan.

Program lain yang dirancang oleh Allen dan timnya, yang disebut Bajak, dapat belajar bagaimana melakukan tugas-tugas umum di komputer. "Ini adalah sistem yang memungkinkan Anda untuk secara esensial menggunakan dialog untuk melatih sistem Anda bagaimana melakukan sesuatu untuk Anda," katanya.

Sebagai contoh, Allen mendemonstrasikan program belajar bagaimana menemukan restoran terdekat menggunakan browser. Pengguna akan membuka browser, menavigasi ke situs pencari restoran, ketik jenis restoran yang dicari dan lokasinya, lalu potong dan tempel hasilnya ke halaman kosong. Pengguna menggambarkan setiap langkah seperti yang dilakukan.

Dalam prosesnya, Bajak akan mencatat setiap langkah, dan terdengar respons ketika langkah dipahami. Kemudian, ketika pengguna ingin mencari restoran lain, program akan melalui semua langkah yang sama, menghasilkan daftar restoran lain secara otomatis. Badan Proyek Riset Pertahanan Terdepan AS mendanai pengembangan program ini.

Lebih banyak data adalah kunci untuk sistem pemrosesan bahasa yang lebih mirip manusia, disetujui ilmuwan kepala Microsoft untuk pidato Larry Heck, dalam pembicaraan lain di konferensi. "Jika Anda tidak memiliki datanya, tidak masalah seberapa canggih algoritma Anda," katanya.

Satu tempat untuk menemukan lebih banyak data adalah dalam permintaan mesin pencari, sarannya. Layanan mesin pencari mendapatkan sejumlah besar pertanyaan, yang semuanya terkait dengan jawaban. "Saya melihat pencarian sebagai sepupu dekat dengan teknologi pemrosesan bahasa," kata Heck.

Hari-hari ini, orang dilatih untuk menyusun kueri mereka sebagai sekumpulan kata kunci. Sebaliknya, jika pengguna mengetikkan kalimat lengkap yang menjelaskan apa yang mereka butuhkan, kumpulan data yang dihasilkan bisa sangat membantu dalam sistem untuk lebih memahami apa yang dicari orang.

Heck meramalkan bahwa semakin banyak orang menggunakan layanan pencarian yang diaktifkan suara dari Microsoft dan Google, mereka akan menjadi lebih terbiasa menyusun pertanyaan mereka sebagai kalimat lengkap, yang seiring waktu dapat membantu sistem NLP lebih baik dalam mengantisipasi kebutuhan pengguna.

Joab Jackson mencakup perangkat lunak perusahaan dan teknologi umum untuk Berita IDG Layanan. Ikuti Joab di Twitter di @Joab_Jackson. Alamat e-mail Joab adalah [email protected]