La Web · Imágenes · Blogs y canales

Acerca de Ask.com España


Tecnología de búsqueda

Cómo funciona

El algoritmo ExpertRank de Ask obtiene resultados de búsqueda relevantes identificando las páginas más autorizadas de la red. La tecnología de búsqueda Ask no solo tiene en cuenta quién es el más popular, sino también quién es el mejor. ExpertRank va más allá de la popularidad de un enlace (no ordena las páginas de acuerdo solamente con el número de enlaces que dirigen a las mismas) para obtener las páginas más autorizadas para responder a su búsqueda. Este sistema es conocido como popularidad temática específica. Identificar temas (también conocidos como "clusters"), los mayores expertos en los mismos, y la popularidad de millones de páginas entre estos expertos -en el mismo instante que realiza su búsqueda- exige una cantidad suplementaria de cálculos que otros buscadores no efectúan. El resultado es una relevancia de primer orden que a menudo ofrece un aire editorial ausente de otros buscadores.

Preguntas acerca del Rastreador Ask

El rastreador Ask es un robot indexador, también llamado crawler o araña. El rastreador recopila documentos de la web para construir un índice en continuo crecimiento.

Ask se diferencia de cualquier otra tecnología de búsqueda en que analiza la web en su estado natural: las comunidades dedicadas a un tema específico. Este proceso comienza con la creación de in índice completo y fiable. El rastreo de la web es una herramienta fundamental que nos permite ofrecer los resultados más actuales.

En esta página encontrará respuestas a las preguntas más frecuentes sobre el funcionamiento de nuestro rastreador.

 

Preguntas frecuentes

1. ¿Qué es un rastreador, araña o web crawler?

2. ¿Por qué utiliza Ask un rastreador?

3. ¿Cómo funciona el rastreador?

4. ¿Con cuánta frecuencia indexará el rastreador páginas de mi sitio web?

5. ¿Puedo impedir que el buscador Ask muestre una copia en caché de mi página?

6. ¿Cumple Ask el Robot Exclusion Standard?

7. ¿Puedo impedir que el rastreador indexe mi sitio web o parte del mismo?

8. ¿Dónde debo colocar mi archivo robots.txt?

9. ¿Cómo puedo saber si el rastreador ha visitado mi sitio web o URL?

10. ¿Cómo puedo impedir que el rastreado indexe mi página y los enlaces que conducen a ella desde otras páginas?

11. ¿Por qué el rastreador descarga varias veces la misma página de mi sitio web?

12. ¿Por qué intenta el rastreador descargar enlaces incorrectos de mi servidor o de un servidor inexistente?

13. ¿Cómo ha encontrado el rastreador mi URL?

14. ¿Qué tipo de enlaces sigue el rastreador?

15. ¿Incluye el rastreador URLs dinámicas?

16. ¿Por qué el rastreador no ha visitado mi URL?

17. ¿Admite el rastreador compresión HTTP?

18. ¿Cómo puedo registrar mi sitio web o URL en Ask para que sea indexado?

19. ¿Por qué no aparecen entre los resultados de búsqueda las páginas indexadas por el rastreador?

20. ¿Puedo controlar la frecuencia con que el rastreador visita mi página web?

21. ¿Cómo autentifico el rastreador Ask?

22. ¿Admite Ask.com sitemaps?

23. ¿Cómo puedo añadir una ventana de búsqueda Ask.com en mi página web?

24. ¿Cómo puedo obtener más información?



¿Qué es un rastreador, araña o web crawler?

Un rastreador (también llamado araña o robot) es un programa de software diseñado para seguir hyperlinks en un sitio web, recopilando e indexando páginas para documentar el sitio en un buscador. Los rastreadores son inocuos y no interfieren con el funcionamiento de los sitios web ni de sus servidores.


¿Por qué utiliza Ask un rastreador?

Ask utiliza rastreadores con el fin de recopilar la información necesaria para construir nuestro creciente índice de búsqueda. Los rastreadores aseguran que la información de nuestros resultados sea tan actual y relevante como resulte posible. Nuestros rastreadores, bien diseñados y profesionalmente operados, llevan a cabo una función de valor incalculable de acuerdo con las prácticas habituales de la industria de buscadores.


¿Cómo funciona el rastreador?

  • El rastreador visita una dirección web (URL) y descarga la dirección HTML.

  • El rastreador sigue los hyperlinks de la página, que pueden ser URLs del mismo sitio web o de otros.

  • El rastreador añade URLs a la lista de direcciones que visita. Este proceso se repite continuamente: el rastreador descubre nuevas URLs, sigue sus enlaces y los descarga.

  • El rastreador excluye algunas URLs si ya ha descargado un número suficiente del sitio web o si estas son idénticas a otras ya descargadas.

  • La lista de URLs descargadas forman un catálogo de búsqueda. Estas URLs aparecen como parte de los resultados de búsqueda de los sitios dotados de tecnología Ask cuando se encuentran coincidencias relevantes.


¿Con cuánta frecuencia indexará el rastreador páginas de mi sitio web?

El rastreador solo descargará las páginas de una en una desde su dirección IP. Tras recibir cada página se detendrá un tiempo (entre una centésima de segundo y varias horas) antes de descargar la siguiente. Cuanto más rápido responda el sitio web al rastreador, más breves serán los intervalos.

 

¿Puedo impedir que el buscador Ask muestre una copia en caché de mi página?

Sí. Ask respeta la meta tag "noarchive". Si incluye la siguiente orden en su página HTML, no ofreceremos una copia archivada del documento al usuario.
< META NAME = "ROBOTS" CONTENT = "NOARCHIVE" >

Si solo quiere aplicar esta restricción a Ask, cambie "robots" por "teoma".

 

¿Cumple Ask el Robot Exclusion Standard?

Sí, obedecemos el Robots Exclusion Standard (RES) de 1994, ligado al Robot Exclusion Protocol, un método que permite al administrador de un sitio web qué partes del mismo pueden ser visitadas por los robots o rastreadores Puede encontrar más información sobre el RES y el Robot Exclusion Protocol en http://www.robotstxt.org/wc/exclusion.html.


 

¿Puedo impedir que el rastreador indexe mi sitio web o parte del mismo?

Sí. El rastreador Ask obedece comandos que restringen el acceso a ciertas URLs o partes de las mismas. Para indicar al rastreador Ask que solo visite rutas definidas como públicas incluya estas líneas:

# Allow only specific directories
User-agent: Teoma
Disallow: /
Allow: /public



¿Dónde debo colocar mi archivo robots.txt?

El archivo debe estar en el nivel superior de su sitio web. Por ejemplo, si su URL es www.misitio.com , el archivo deberá estar en http://www.misitio.com/robots.txt.


 

¿Cómo puedo saber si el rastreador ha visitado mi sitio web o URL?

Consulte los logs del servidor para saber si el rastreador ha visitado su sitio web o URL. Si así ha sido, esta es la línea usuario-agente que debería encontrar :

User-Agent: Mozilla/2.0 (compatible; Ask Jeeves/Teoma)

 


¿Cómo puedo impedir que el rastreado indexe mi página y los enlaces que conducen a ella desde otras páginas?

Si incluye el siguiente comando en una sección de su página HTML, el rastreador Ask no indexará el documento y por tanto éste no aparecerá en nuestros resultados de búsqueda:

< META NAME = "ROBOTS" CONTENT = "NOINDEX" >

El siguiente comando permite al rastreador Ask indexar el documento pero no seguir los hyperlinks del mismo:

< META NAME = "ROBOTS" CONTENT = "NOFOLLOW" >

Puede desactivar todas las directivas con:

< META NAME = "ROBOTS" CONTENT = "NONE" >

Diríjase a http://www.robotstxt.org/wc/exclusion.html#meta para ampliar esta información.



¿Por qué el rastreador descarga varias veces la misma página de mi sitio web?

Habitualmente el rastreador Ask solo descarga una copia de cada archivo de un sitio web durante su visita. Hay dos excepciones:

  • Una URL contiene comandos que "redirigen" el rastreador a una URL diferente. Por ejemplo, el comando HTML:

    < META HTTP-EQUIV="REFRESH"
    CONTENT="0; URL=http://www.su dirección URL.html" >

    o los códigos de estatus HTTP 301 o 302. En este caso el rastreador descarga la segunda página en lugar de la primera. If many URLs redirect to the same page, then this second page may be downloaded many times before the crawler realizes that all these pages are duplicates.

  • Una página HTML puede ser del tipo "frameset." Estas páginas están formadas por distintos componentes ("frames" o marcos). Si muchas páginas frameset tienen el mismo marco entre sus componentes, puede que el rastreador tenga que descargarlo muchas veces antes de descubrir que está duplicado.



¿Por qué intenta el rastreador descargar enlaces incorrectos de mi servidor o de un servidor inexistente?

Es característico de la red de internet que muchos enlaces se rompan o queden desfasados. Siempre que una página web contenga un enlace roto o desfasado a su sitio web o a una dirección inexistente, Ask lo visitará tratando de encontrar la página a la que hace referencia. Esto puede hacer que el rastreador solicite URLs que ya no existen o nunca lo hicieron, o que efectúe peticiones HTTP a direcciones IP que nunca tuvieron servidor o han dejado de tenerlo. El rastreador no genera direcciones arbitrariamente, sino sigue enlaces. Por esta razón puede que advierta actividad en equipos que no sean servidores.



¿Cómo ha encontrado el rastreador mi URL?

El rastreador Ask encuentra páginas siguiendo enlaces (etiquetas HREF en HTML) desde otras páginas. Cuando el rastreador encuentra una página que contiene marcos (frameset), descarga los distintos componentes e incluye su contenido como parte de la página original. El rastreador Ask no indexará estos marcos o componentes como URLs a menos que otras páginas enlacen con ellos vía HREF.


 

¿Qué tipo de enlaces sigue el rastreador?

El rastreador Ask sigue enlaces HREF, SRC y redirecciones.



¿Incluye el rastreador URLs dinámicas?

Mantenemos un número limitado de URLs dinámicas en nuestro índice. Todas son examinadas para detectar posibles duplicados antes de descargarlas.


 

¿Por qué el rastreador no ha visitado mi URL?

Si el rastreador Ask no ha visitado su URL es porque no ha encontrado enlaces a la misma en las páginas o URLs visitadas.


 

¿Admite el rastreador compresión HTTP?

Sí. Tanto el cliente como el servidor HTTP permiten el funcionamiento de la compresión HTTP, que permite a los servidores enviar documentos comprimidos (en gzip u otros formatos). Esto supone un ahorro considerable de ancho de banda para servidor y cliente y, aunque aumenta el overhead de la CPU del servidor y el cliente al operar, merece la pena. Con un sistema de compresión sencillo como gzip puede reducirse el tamaño de los archivos hasta un 75%.


 

¿Cómo puedo registrar mi sitio web o URL en Ask para que sea indexado?

Agradecemos su interés por incluir su sitio web en Ask.com y en el motor de búsqueda Ask.com. Su mejor opción es seguir el protocolo de formato abierto sitemaps, que Ask.com admite. Una vez que ha preparado el sitemap, añada la directiva de descubrimiento automático de sitemap a robots.txt o envíenos directamente el sitemap a través de la ping-URL. (Para obtener más información sobre este proceso, consulte ¿Admite Ask.com sitemaps?) Tenga en cuenta que el envío de sitemaps no garantiza la indexación de URLs.

Cree su sitio web y configure su servidor web para optimizar la manera en la que los motores de búsqueda miran el contenido de su sitio, e indexan y activan dependiendo del tipo de palabras clave utilizadas en una búsqueda. Dispone de numerosos recursos en internet que ofrecen información y consejos para ayudarle en esta tarea.


 

¿Por qué no aparecen entre los resultados de búsqueda las páginas indexadas por el rastreador?

No se preocupe si no ve sus páginas indexadas en nuestros resultados. Ponemos mucho cuidado en preservar la calidad de nuestro índice y analizamos los resultados de cada rastreo antes de incluirlos en nuestra base de datos. Ask no incluye necesariamente todos los sitios que ha rastreado en su índice.

 

¿Puedo controlar la frecuencia con que el rastreador visita mi página web?

Sí. Respetamos la directiva robots.txt "Crawl-Delay", que le permite especificar el intervalo mínimo entre dos descargas sucesivas de nuestro rastreador.


 

¿Cómo autentifico el rastreador Ask?

La línea usuario-agente no es garantía de autenticidad ya que para un usuario malicioso resulta fácil imitar las propiedades del rastreador Ask. Para poder autentificar correctamente el rastreador Ask debe realizarse una búsqueda de DNS de "ida y vuelta". En primer lugar, esto conlleva obtener la dirección IP del rastreador Ask y realizar una búsqueda de DNS inversa asegurando que la dirección IP pertenece al dominio ask.com. Luego se realizará una búsqueda de DNS directa con el nombre de host asegurando que la dirección IP resultante coincide con la original.


 

¿Admite Ask.com sitemaps?

Sí, Ask.com admite el protocolo de formato abierto sitemaps. Una vez que ha preparado el sitemap, añada la directiva de descubrimiento automático de sitemap a robots.txt de la siguiente manera:

SITEMAP: http://www.la URL de su sitemap aquí.xml

La ubicación del sitemap debe ser la URL completa del sitemap. O bien también puede enviar su sitemap a través de la ping-URL:

http://submissions.ask.com/ping?sitemap=http%3A//www.la URL de su sitemap aquí.xml

Tenga en cuenta que el envío de sitemaps no garantiza la indexación de URLs. Para obtener más información sobre el protocolo, visite el sitio web de Sitemaps: http://www.sitemaps.org/es.


 

¿Cómo puedo añadir una ventana de búsqueda Ask.com en mi página web?

Es muy fácil. Puede generar el código necesario haciendo clic aquí.

¿Qué tipo de codificación de caracteres debo utilizar?

Ask.com considera por defecto que los términos de búsqueda son enviados en formato UTF-8. En caso contrario, es necesario especificar la codificación de caracteres utilizada en su web en el campo oculto "qenc". Por favor, consulte la lista de codificaciones admitidas más abajo.

Es importante informar del formato de codificación utilizado para que podamos interpretar correctamente las búsquedas, especialmente cuando estas incluyen carácteres acentuados o no latinos. Si no especifica la codificación, el usuario verá caracteres ausentes o incorrectos en su búsqueda (normalmente un signo de interrogación).

Las siguientes codificaciones de caracteres son admitidas en el parámetro "qenc":

  • utf-8
  • iso-8859-1
  • shift_jis
  • euc-jp
¿Cómo puedo identificar la codificación de mi página web?

Habitualmente la codificación de una página web aparece como información META en la fuente. Vea la fuente de la página en la que desee integrar el buscador Ask.com y busque el siguiente texto: <meta http-equiv="content-type" content="text/html; charset=ISO-8859-1">. "Charset" especifica la codificación de caracteres utilizada. En este ejemplo es ISO-8859-1 (o Latin-1), por lo que deberíamos introducir "iso-8859-1" como valor del campo oculto "qenc".

¿Qué ocurre si mi página utiliza una codificación distinta a las anteriores?

Si la codificación de su página no aparece mencionada más arriba y quiere integrar la búsqueda Ask.com, puede ponerse en contacto con nuestro departamento de Atención al cliente. Por favor, incluya la siguiente información:

  • URL de la página en la que desea integrar el buscador Ask.com
  • La codificación que utiliza actualmente.

Haremos todo lo posible por reconocer su codificación y le haremos saber cuando podremos empezar a atender búsquedas desde su sitio.

 

¿Cómo puedo obtener más información?

Por favor, póngase en contacto con nuestro departamento de Atención al cliente.

Por favor, tenga en cuenta que no podemos atender peticiones para indexar sitios web o URLs o reflejar actualizaciones.
© 2008 Ask.com