15 noviembre 2010

Los números y las letras de Google Books

Google Books, junto a Google, en su intento de ordenar el mundo, ofrece muchos números y datos en el laborioso trabajo de organizar la mayor biblioteca en Internet.  Jon Orwant, responsable de Googe Books, ha dado algunas cifras al respecto:

  • 15 millones de libros digitalizados,
  • Los 15 millones de libros suponen 4.000 millones de páginas,
  • que representan  2 billones de palabras.
  • Han recopilado metadatos de más de 100 fuentes;
  • a pesar de todo hay incongruencias: el nº de ISBN “753305353” lo comparten 1.413 libros,
  • y 6.000 números de ISBN están asociados a más de 20 títulos cada  uno.
  • Con todo, Google ha escaneado libros en 463 idiomas (incluso tres en “klingon”, los seguidores de Star Trek no desaprovechan ninguna oportunidad).

Google sigue desarrollando su algoritmo para identificar áreas de texto, imágenes, etc. para mejorar su etiquetado y errores de indexación bastante “peculiares”, si recordamos. Hemos visto que ahora el algoritmo de búsqueda de libros tiene en cuenta más de 100 “marcas”, las categorías de datos individuales que Google integra estadísticamente para clasificar sus resultados. A partir de ahora, cuando se busca un libro, Google Books no sólo buscará en la frecuencia de la palabra o cómo de cerca coincide la consulta con el título del libro. También va a tener en cuenta la frecuencia de la búsqueda web, las ventas de los últimos datos, el número de bibliotecas que tienen el título, y con qué frecuencia un libro más antiguo ha sido reimpreso.

De lo último en relación a los servicios de búsqueda de libros ha sido desarrollar aplicaciones como un mashup en Google Maps que muestra todos los nombres de los lugares mencionados en un libro. Sin duda, los mapas y los libros están dando mucho juego.

16 Responses

Leave a Reply