Car-tech

Google: 129 Juta Buku Yang Berbeda Telah Diterbitkan

What we learned from 5 million books

What we learned from 5 million books
Anonim

Bagi mereka yang pernah bertanya-tanya berapa banyak buku berbeda di luar sana di dunia, Google memiliki jawaban untuk Anda: 129.864.880, menurut Leonid Taycher, seorang insinyur perangkat lunak Google yang bekerja pada proyek Google Books.

Memperkirakan angka buku di dunia lebih dari sekadar latihan rasa ingin tahu bagi raksasa pencarian: Ini juga menyediakan peta jalan dari beberapa pekerjaan yang masih harus dilakukan untuk memenuhi tujuan ambisius perusahaan dalam mengatur semua informasi dunia.

"Ketika Anda adalah bagian dari perusahaan yang mencoba mendigitalkan semua buku di dunia, pertanyaan pertama yang sering Anda dapatkan adalah: 'Berapa banyak buku di luar sana?', "Taycher menjelaskan dalam posting blog yang mengumumkan perkiraan.

[Bacaan lebih lanjut: Layanan streaming TV terbaik]

Untuk menghasilkan perkiraan yang masuk akal, perusahaan memulai dengan mencerna informasi buku dari beberapa sistem katalog, seperti Nomor Buku Standar Internasional (ISBN).

Katalog semacam itu, meskipun bermanfaat, tidak memberikan jumlah yang pasti., bagaimanapun. Misalnya, ISBN hanya ditetapkan untuk buku sejak tahun 1960-an, dan cenderung hanya digunakan di negara-negara Barat.

Juga beberapa buku telah ditetapkan untuk nomor ISBN individu, dan penerbit telah memberikan ISBN ke item selain buku, seperti t-shirt dan DVD.

Jadi insinyur Google telah menulis program untuk menyisir sekitar 150 katalog dan direktori, dan menghilangkan banyak entri duplikat yang dapat ditemukan.

Perusahaan juga harus membuat sejumlah keputusan sulit tentang apa dan bukan sebuah buku, Taycher menjelaskan.

Misalnya, soft cover dan edisi sampul keras dari sebuah teks dihitung sebagai dua buku, seperti juga berbagai versi teks populer, seperti Shakespeare's "Hamlet," karena kata pengantar dan komentar yang mungkin mereka isi. Serial dapat dihitung sebagai buku individu atau sebagai karya yang dikumpulkan.

Pada Juni, perusahaan telah memindai 12 juta buku, menurut presentasi yang diberikan oleh manajer teknik Google Books Jon Orwant pada Konferensi Teknis Tahunan USENIX di Boston. Buku-buku ini telah ditulis dalam sekitar 480 bahasa (termasuk 3 buku dalam bahasa Klingon yang berasal dari Star Trek).

Perusahaan berencana untuk menyelesaikan pemindaian buku-buku yang ada dalam satu dekade. Koleksi virtual yang dihasilkan akan terdiri dari empat miliar halaman dan dua triliun kata, kata Orwant.

Sekitar 20 persen dari buku-buku dunia berada dalam domain publik, Orwant menjelaskan. Sekitar 10 hingga 15 persen dari buku-buku ini dicetak. Buku-buku yang tersisa - sebagian besar dari semua judul - masih memiliki hak cipta tetapi tidak dicetak. Google sedang dalam proses meminjam salinan buku-buku ini untuk mendigitalkan mereka, dari sekitar 40 perpustakaan besar di seluruh dunia.

Ini adalah tindakan pemindaian dalam buku-buku yang tidak dicetak tetapi masih dilindungi oleh hak cipta yang telah dipenuhi dengan beberapa penolakan oleh industri penerbitan.

Perusahaan sekarang sedang menunggu keputusan dari Pengadilan Distrik AS untuk Distrik Selatan New York, apakah dapat memindai buku-buku ini.

Pada tahun 2005, Authors Guild dan Asosiasi Penerbit Amerika secara terpisah mengajukan gugatan class action terhadap raksasa pencarian, menegaskan bahwa perusahaan melanggar hak cipta penulis dengan memindai dalam buku-buku.

Google telah mengklaim ingin menjual salinan digital ini jika tidak keluar-dari- cetak buku, dan sisihkan royalti untuk diklaim oleh penulis. Perusahaan juga berharap untuk mengungkapkan cuplikan buku-buku ini di penelusuran Web, dan mengklaim bahwa penggunaan ini termasuk dalam doktrin Penggunaan Wajar AS.

Pemindaian di semua buku dunia akan mengarah pada manfaat lain selain meningkatkan penelusuran, Orwant menjelaskan. Setelah semua volume ini didigitalkan, isinya dapat menjadi sasaran analisis, yang dapat mengarah pada wawasan baru. Ahli bahasa dapat menemukan ketika kata-kata tertentu mulai digunakan secara luas, atau yang pertama mulai menggunakan kata-kata ini.

Pencarian Buku Google juga dapat membantu menjawab beberapa pertanyaan historis yang luar biasa: Misalnya, bisa menginformasikan perdebatan tentang apakah Isaac Newton dan Gottfried Leibniz - atau kalkulus lain yang diciptakan orang lain.

"Kita dapat mencari tidak hanya untuk frasa tetapi untuk sebuah konsep, "Orwant menjelaskan. "Kita dapat mengambil semua cara yang berbeda [bahwa ide] infinity dapat diinfeksikan, menerjemahkannya ke dalam bahasa yang berbeda, dan melakukan pencarian secara paralel."

"Harapan saya adalah bahwa ketika kita mulai mengekspos lebih banyak koleksi ini, akan memungkinkan orang untuk mengajukan pertanyaan seperti ini yang belum dapat mereka tanyakan sebelumnya, "katanya.

Editor Layanan Berita IDG Juan Carlos Perez berkontribusi dalam laporan ini.

Joab Jackson mencakup perangkat lunak perusahaan dan berita teknologi umum untuk Layanan Berita IDG. Ikuti Joab di Twitter di @Joab_Jackson. Alamat e-mail Joab adalah [email protected]