Analizadores de log. ¿Analog o Webalizer?

En esta entrada quiero compartir un pequeño análisis, en base a mi experiencia, sobre dos de los analizadores de logs más famosos utilizados para obtener las estadísticas de nuestro sitio web. Analog vs Webalizer.

1. Aspectos generales.

Tanto Analog como Webalizer son analizadores de logs simples pero bastante completos para realizar registros de accesos generados por servidores Apache e IIS. Ambos son completamente gratuitos. Desde la web de Analog es posible obtener el código fuente, mientras que Webalizer está programado en C, teniendo el usuario acceso a los ficheros .c y .h en el directorio en el que ha sido descargado.

Una de las características principales de ambos es que funcionan en cualquier plataforma o sistema operativo, son escalables y altamente configurables, pudiendo realizar reportes con los datos en mas de 32 lenguajes incluido el Español, son rápidos y ofrecen estadísticas detalladas sobre el uso de su servidor web.
Entre los datos estadísticos ambos nos permiten obtener : Cantidad de páginas vistas, indicando las más populares, la procedencia de cada visita (páginas de donde llegan los visitantes), códigos de respuesta de errores del servidor, información de archivos, actividad del sitio cada cierto tiempo, uso del tráfico…
Analog no contiene una interfaz gráfica o GUI como suele llamarse, si no que consta de un archivo ejecutable (analog.exe) , y este funciona desde la línea de comandos mediante el paso de parámetros para configurarlo y poder crear los reportes y listados con la información.
Además contiene una página html (anglform.html, ubicado tanto en la carpeta principal, aunque podemos encontrar en la carpeta Lang el mismo fichero en español, con nombre esform.html) que sirve como interfaz para realizar algunas configuraciones y ajustar algunas opciones, como por ejemplo: Indicar si el programa debe realizar un sumario general, un sumario de datos mensual, semanal…, así como otros detalles para los reportes. El hecho de incluir estas opciones fuera del fichero de configuración analog.conf (que se encarga de indicar el fichero html en el que se generará el reporte, el fichero de log a analizar, así como los tipos de páginas y de ficheros que se encuentran en el servidor), le otorga un carácter más amigable y más fácil de usar.
Webalizer consta de una serie de ficheros programados en c que deben ser compilados y ejecutados para funcionar, por tanto, según la plataforma en la que trabajemos se instalará de una forma u otra, pudiendo ser necesaria la instalación de librerías (como gdlib) u otros componentes. A favor, podemos encontrar en el fichero README una guía completísima para instalar y configurar el programa. Una vez instalado, enontramos en el directorio principal el fichero de configuración, webalizer.conf, que concentra todos los parámetros de configuración que podemos encontrar, como indicar el fichero de log, el directorio de salida en el que se mostrará el reporte, la dirección de la web y otros parámetros que identificaremos con más detalle a continuación.

2. Ficheros de configuración.

Como hemos comentado anteriormente, el fichero de configuración analog.conf contiene las etiquetas de configuración del programa Analog, aunque sólo las más básicas. Existe otro fichero de configuración más extenso en la carpeta examples, llamado big.conf, si se desea una configuración más específica, algo que, en principio, puede ser ventajoso para principiantes, aunque para configuraciones poco más complejas requiere una lectura detenida del fichero README.

A priori, con conocer unas pocas etiquetas podemos obtener un informe considerablemente completo. Con la etiqueta LOGFILE elegimos el fichero de log a analizar, su formato es reconocido automáticamente. Indicamos el nombre del fichero html de salida mediante la etiqueta OUTFILE. Por otra parte, con otras etiquetas la configuración por defecto suele ajustarse a las necesidades de los usuarios, por ejemplo en las siguientes. Indicamos que los reportes incluyan links en html mediante LINKINCLUDE. Con PAGEINCLUDE o PAGEEXCLUDE indicamos qué tipos cuentan como páginas (por defecto .html, .htm y directorios), con TYPEALIAS se reconocen los tipos de ficheros válidos, etc. Hay que tener cuidado con la etiqueta SEARCHENGINE, que nos indica los buscadores que tiene en cuenta leyendo las cadenas de los referentes, ya que, aunque parece haberse actualizado desde 2005, puede precisar de nuevas actualizaciones con el paso del tiempo.

Sin embargo, para indicar otras configuraciones básicas, como el lenguaje de la salida mediante LANGUAGE, la resolución de las ip’s a dominios con DNS WRITE o la generación del reporte con los requisitos fallidos mediante FAILURE ON, tenemos que acudir al fichero big.conf, por lo que podemos concluir que, en cuanto nos hagamos un poco con la herramienta, debemos acudir directamente a este fichero de configuración.

Debo romper una lanza en favor de la Interfaz de Formularios de Analog, en todos los idiomas disponibles, que nos permite indicar de forma sencilla los informes que deseamos ver (general, mensual, semanal, diario o por horas, por dominios, organizaciones , directorios, navegadores o SO, por tamaño o tipo de archivo…). También podemos ordenar la búsqueda para cada informe,
según número de peticiones o según el tráfico y limitar el análisis por fechas o indicar de forma explícita los archivos a incluir. Por último, nos ofrece un par de opciones relacionadas con la presentación. Todo de forma clara, sencilla y bastante amigable.
En cuanto a Webalizer, como ya hemos dicho todos los aspectos relacionados con la configuración se controlan desde el fichero webalizer.conf, por lo que nos encontramos con un fichero mucho más extenso, que contiene algunas opciones por defecto poco eficientes.

Comenzamos hablando de los referrers, es decir, los enlaces a la web y desde donde se reciben las visitas. La etiqueta Hidereferrer oculta nuestros propios referrers y deja que se vean mejor los externos. Indicando un dominio se podrían ver con claridad las visitas externas.

Continuamos con el tiempo de visita. La etiqueta VisitTimeout indica el tiempo entre dos peticiones desde una IP, a partir del cual se considera que se trata de dos visitas distintas. El valor por defecto es media hora (1800 segundos). Este es un aspecto a tener en cuenta, ya que según el tiempo de visita indicado, los resultados de los análisis de los logs serán diferentes.

Y finalizamos con el problema de los informes incompletos. Las etiquetas AllReferrers o DumpReferrers (entre otras), disponibles en html y texto sin formato con separadores de campo proporcionan informes completos si están habilitadas, pero por defecto no lo están por lo que se puede perder bastante información. La razón por la que no se generan es la cantidad de espacio en el disco que pueden ocupar.

Aunque existen versiones actualizadas, conviene comprobar las cadenas de buscadores, igual que en Analog, por si acaso están obsoletas ante la aparición de nuevos buscadores. Otros parámetros a tener en cuenta, en muchos casos con funcionalidades similares a las obtenidas con Analog mediante sus ficheros de configuración y sus formularios, son PageType, que indica los archivos que cuentan como páginas para las visitas (el formato .php suele estar comentado), los valores por defecto que muestra el informe de estadística (TopSites, TopURLs, TopAgents), IndexAlias, que permite comprobar si la página principal de la web y la dirección absoluta de la misma tienen diferentes nombres (está deshabilitado por defecto), o las etiquetas Ignore para no mostrar determinadas páginas.

En definitiva, ambos poseen muchas opciones de configuración que hay que conocer y tener en cuenta para realizar las modificaciones necesarias. Webalizer las engloba en un sólo fichero, lo que simplifica el trabajo a alguien que sabe manejarse a través del fichero. Analog lo divide en varios ficheros, e incluye el famoso formulario, algo que puede resultar más engorroso para
alguien experto, pero que puede ayudar a usuarios menos familiarizados con la herramienta o que requieran configuraciones más sencillas.

3. Estadísticas.

Analog ofrece sus estadísticas en un fichero html con el nombre que le hemos indicado en el fichero de log. Si seleccionamos en el formulario la realización de un informe completo, podemos ver algo así.
Al principio vemos un resumen general, que contiene estadísticas globales, como el número de peticiones exitosas o fallidas o los datos transferidos. A continuación vemos un informe mensual mostrado con un sencillísimo gráfico de barras cuyas alturas representan las peticiones por página. Lo mismo ocurre con el posterior resumen diario, que lista la actividad total por cada día de la semana, sumados por todas las semanas en el informe, y en el resumen horario, que muestra la actividad total por cada hora del día.

Los posteriores informes se representan mediante un, también muy sencillo, gráfico circular. En el informe de dominio vemos el porcentaje de tráfico proveniente de los países de los hosts que pidieron ficheros, mientras que en el informe de la Organización podemos listar las organizaciones de los hosts que pidieron ficheros, ordenadas por número de solicitudes y su porcentaje. Podemos encontrar un informe de búsqueda por palabras utilizadas en motores de búsqueda, ordenados por el número de solicitudes, un informe sobre el sistema operativo utilizado por los visitantes, ordenado por el número de peticiones de páginas, un informe que enlista los códigos de estado HTTP de todas las solicitudes, por orden numérico, un informe que enlista los tamaños de los ficheros en grupos de tamaños definidos, un informe que agrupe las peticiones según las extensiones de los ficheros con un mínimo de, por ejemplo, un 0,1% del tráfico, ordenados por la cantidad de tráfico, un informe que muestre los directorios desde los cuáles fueron pedidos los ficheros (siempre que ocupen, por ejemplo, un 0,01% del tráfico), ordenados por la cantidad de tráfico o un informe que proporcione un listado de los archivos con, por ejemplo, al menos 20 peticiones, ordenados por el número de peticiones.

Es en el apartado de resultados donde Webalizer demuestra ser un analizador más sofisticado o
al menos, pensado para análisis más complejos y completos.
Webalizer muestra al principio dos páginas de información, con un gráfico y una tabla resumen
de los últimos 12 meses (mostrando los totales mensuales y la media diaria). Agrupa los
resultados según:

  • Accesos: Número de veces que se hace un acceso al servidor por cada elemento de las páginas. Cada vez que un navegador solicita una página web, o ejecuta un programa, hace una búsqueda en una base de datos, accede a una imagen u otro tipo de archivo.
  • Archivos: Número de veces que el servidor envía un archivo al usuario/cliente. Por ejemplo: si un usuario entra en una página html, el servidor le enviará a parte del fichero html, los gráficos y otros elementos de la página.
  • Páginas: Número de archivos que se consideran páginas web. Por ejemplo: htm, html, asp, php…Este dato es importante para conocer el número de páginas visitadas.
  • Visitas: Una visita es una petición al servidor Web para consultar una página. Si se realizan varias peticiones desde una misma IP es un corto espacio de tiempo solo se contabiliza una visita.
  • Kbytes: Cantidad de datos medidos en KBytes que el servidor envía a los usuarios de la web y
  • Clientes: Los clientes son las diferentes direcciones IP desde las cuales se accede al dominio.

A continuación se muestra el resumen de las estadísticas del mes analizado, incluyendo la media y el valor máximo del mes, así como los Accesos por código de respuesta del servidor. Por supuesto, tenemos también las estadísticas diarias, detalladas por cada día del mes de la misma forma que los anteriores.

Así pues, posteriormente podemos ver un análisis de los accesos realizados a la web por horas. Se pueden ver gráficos que contienen las horas en las cuales los usuarios visitan el sitio web. Esto puede ser útil en muchos casos, por ejemplo para elegir el momento del día para hacer alguna modificación importante en la web.

Por otra parte, Webalizer informa de las páginas más consultadas por los usuarios, lo que puede servirnos para ver qué páginas son las que necesitamos favorecer para que sean más visitadas (facilitando su acceso) y qué productos/servicios necesitamos promocionar.

Vemos también completas estadísticas por páginas de entrada y salida, indicando su URL, estadísticas por clientes, indicando el nombre de la máquina, estadísticas por enlaces desde los cuales se ha accedido a nuestra web, estadísticas por cadena de búsqueda que nos informa de las palabras introducidas en los buscadores desde donde los usuarios han accedido a la página web, tablas con los primeros navegadores utilizados y/o gráficos circulares con estadísticas por países (similar al de Analog en este caso).

4. Conclusión.

Tengo la sensación de que Analog es un programa más sencillo de utilizar, tanto a nivel de instalación y puesta en marcha, como a nivel de configuración de los parámetros de entrada para la realización de los informes. En consecuencia, los resultados obtenidos son más simples e incompletos que los que ofrece Webalizer, y también es cierto que el fichero de salida de Analog es menos atractivo que el de Webalizer.

De todas formas, mi conclusión es que Analog es el mejor programa para realizar informes sencillos, interesante para principiantes, mientras que Webalizer es más adecuado para consultas más complejas y usuarios más expertos.

Publicado el 9 mayo, 2011 en Prácticas con Web y etiquetado en , . Guarda el enlace permanente. Deja un comentario.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: