Android

Peneliti Google Menargetkan Data Terstruktur Web

Telp/WA:+62 813-8143-2012 Big Data dan Machine Learning dataset

Telp/WA:+62 813-8143-2012 Big Data dan Machine Learning dataset
Anonim

Mesin telusur internet memiliki sebagian besar berfokus pada perayapan teks di laman web, tetapi Google sangat teliti dalam penelitian tentang cara menganalisis dan mengelola data terstruktur, kata ilmuwan perusahaan, Jumat.

"Ada banyak data terstruktur di Web dan kami tidak melakukan pekerjaan dengan baik untuk menyajikannya kepada pengguna kami, "kata Alon Halevy saat berbicara di konferensi Hari Database New England di Massachusetts Institute of Technology,

Halevy merujuk sebagian dari apa yang disebut" deep Web "sumber, seperti database yang berada di belakang situs Web berbasis-form seperti Cars.com atau Realtor.com. Google telah mengirimkan pertanyaan ke berbagai bentuk untuk beberapa waktu, mengambil halaman Web yang dihasilkan dan memasukkannya dalam indeks pencariannya jika informasi tersebut terlihat berguna.

[Bacaan lebih lanjut: Layanan streaming TV terbaik]

Tetapi perusahaan juga ingin menganalisis data yang ditemukan dalam tabel terstruktur di banyak situs Web, kata Halevy, menawarkan sebagai contoh tabel di halaman Web yang berisi daftar presiden AS.

Dan ada rim tabel tersebut - indeks Google muncul 14 miliar dari mereka, menurut Halevy. Dia "menyadari dengan sangat cepat bahwa lebih dari 98 persen dari ini tidak begitu menarik," tetapi bahkan setelah penyaringan signifikan tetap ada sekitar 154 juta tabel pengindeksan, katanya.

Salah satu tujuan utama Google adalah memberikan hasil yang mengatur "aspek "dari permintaan pencarian, terutama yang eksploratif seperti" perjalanan Vietnam, "sebagai lawan dari permintaan untuk fakta spesifik seperti" penduduk Vietnam, "kata Halevy. Permintaan sebelumnya akan menghasilkan informasi tentang persyaratan visa, paket cuaca dan tur, misalnya.

Ide tersebut bergema dari layanan pencarian yang ditawarkan oleh Kosmix, tetapi Google ingin melangkah lebih jauh, menurut Halevy. "Kosmix akan memberi Anda 'aspek,' tetapi itu melekat pada sumber informasi," katanya.

Mencari "perjalanan Vietnam" di Kosmix memberikan serangkaian hasil yang terorganisir termasuk ulasan restoran dari New York Times, gambar dari Yahoo dan Flickr, informasi belanja dari Shopping.com dan hasil Web umum dari Google.

"Dalam kasus kami, semua aspek mungkin hanya hasil pencarian Web, tetapi kami akan mengaturnya secara berbeda," kata Halevy.