Internet es un medio creciente de diseminación de información que combina muchas de las tareas tradicionales realizadas en bibliotecas y archivos, sin embargo su arquitectura es diferente a la de las unidades de información; la recuperación de la información es una parte mínima de los serviciosque ofrece Internet.
En el marco del curso Análisis y Recuperación de la Información, elaboramos el siguiente trabajo monográfico, con el objetivo de conocer el desenvolvimiento de la Recuperación de la Información en el mundo de la Web.
El primer capítulo, abarcamos los conceptos básicos acerca de la Recuperación de Información, es decir, acerca de lo que significa el término "Recuperar Información" y las herramientas con las cuales podemos acceder a Recuperar la Información.
En el segundo capítulo, se desarrollan los modelos y sistemas de Recuperación de la Información en Internet. Así como las técnicas y métodos de recuperar los diferentes tipos de información que se encuentra en ésta Red.
El tercer capítulo, es sobre la evaluación de los sistemas de recuperación existentes en Internet, se mencionará y explicarán las medidas, parámetros en relación al sistema en sí y al usuario, para conocer los niveles de eficacia y eficiencia del sistema, así como la satisfacción del usuario.
CAPITULO I:
1. ASPECTOS GENERALES DE LA RECUPERACIÓN DE LA INFORMACIÓN1.1 CONCEPTO DE RECUPERACIÓN DE LA INFORMACIÓN
La recuperación de información es el conjunto de tareas mediante las cuales el usuario localiza y accede a los recursos de información que son pertinentes para la resolución del problema planteado. En estas tareas desempeñan un papel fundamental los lenguajes documentales, las técnicas de resumen, la descripción del objeto documental, etc.
La Recuperación de la Información, tiene por objeto: identificar, localizar, seleccionar y acceder a los recursos de información útiles al usuario.
1.2 PROCESO DE RECUPERACIÓN DE LA INFORMACIÓN
Entre las actividades que se realizan para llevar a cabo el proceso de RI están: definir las necesidades de búsqueda, seleccionar las herramientas de búsqueda, definir una estrategia de búsqueda y evaluar los resultados para que así, en caso no se obtuviese información relevante, se proceda a redefinir la estrategia de búsqueda.
Hablaremos de los dos primeros pasos de este proceso, los dos restantes se detallaran mas adelante.
Definir necesidades de información:
Finalidad de la búsqueda: definir los objetivos y la utilización de la búsqueda, es decir, es para obtener bibliografía para publicar un artículo, para una tesis, para un proyecto de investigación, etc.
Idioma: interesan todos los idiomas o solamente los más conocidos o los más disponibles.
Nivel científico: artículos de investigación, de divulgación o ambos.
Tipos de documentos deseados: artículos, libros, literatura gris, etc., y dentro de ellos algunos en concreto
Período de tiempo cubierto: solamente lo más reciente (en general, los cinco últimos años) o un período más amplio.
Número de referencias que se desean: especificar cuantas referencias desean recuperar.
Necesidad de precisión o exhaustividad. La búsqueda exhaustiva es la que pretende obtener todos los documentos existentes sobre el tema. Ello trae como consecuencia la obtención de abundante información no relevante. La búsqueda precisa es la que no obtiene todos los documentos existentes sobre el tema de búsqueda pero todos los registros recuperados son adecuados.
Seleccionar herramientas de búsqueda:
Cobertura temática: medicina, ciencias básicas, ciencias de la salud, etc.
Cobertura geográfica: nacional, internacional, latinoamericana, anglosajona, etc.
Idioma que utiliza
Cobertura retrospectiva: nº de años que abarca.
Existencia o no de vocabulario controlado
Disponibilidad de tesauro, listado de palabras clave.
Coste de la búsqueda
Conocimiento del programa de interrogación
Posibilidad de acceder al documento primario: acceso libre, envío por e-mail o no permite acceso al documento.
Disponibilidad y accesibilidad de las bases de datos: en CD-ROM, conexión de Internet a un servidor predeterminado o en la red.
Datos que proporcionan los registros bibliográficos.
Prestigio del productor.
Proceso de recuperación de información
Bases de Datos
Una base de datos puede definirse como un conjunto de información homogénea que mantiene una estructura ordenada y que toda ella se encuentra relacionada
Internet
Es una red de cómputo a nivel mundial que agrupa a distintos tipos de redes usando un mismo protocolo de comunicación. Los usuarios en Internet pueden compartir datos, recursos y servicios. Internet se apoya en el conjunto de protocolos TCP/IP De forma más específica, Internet es la WAN más grande que hay en el planeta, e incluye decenas de MAN's y miles de LAN's. Las computadoras que lo integran van desde modestos equipos personales, minicomputadoras, estaciones de trabajo, mainframes hasta supercomputadoras. Internet no tiene una autoridad central, es descentralizada. Cada red mantiene su independencia y se une cooperativamente al resto respetando una serie de normas de interconexión.El organismo que se encarga de regular, establecer estándares, administrar y hacer operacional a Internet es la ISOC (Internet Society).[1]
Lenguajes de indización y control terminológico
Índices
Listado de términos normalizados que representan el contenido de un recurso. Algunos tipos son:
Índice de materias: términos ordenados según las materias que trata la base de datos, el buscador, etc.
Índice alfabético: listado de términos alfabéticamente
Índice KWIC: Tipo de índice permutado en el que el contenido temático de una obra se representa mediante palabras clave de su título o de otra fuente de información del documento.
Índice KWOC: Tipo de índice permutado que varía en su presentación respecto al índice KWIC, en que las palabras clave aparecen como un encabezamiento en línea separada. Bajo cada encabezamiento aparece la totalidad de los títulos, completos o truncados, que contienen la palabra clave de que se trata.
Palabras clave (Keywords)
Término significativo en lenguaje natural que representa el contenido del documento. En la búsqueda de información esta opción es esencial ya que nos permite acotar y precisar información. El problema recae en definir la palabra exacta que representa el contenido, por ello es conveniente utilizar especificadotes.
Meta Keywords: La mayoría de los buscadores utilizan para localizar los recursos, las palabras clave de cada página Web. Por esta razón es esencial que cada pagina tenga una etiqueta donde se incluyan las palabras clave que la definen, también es importante la definición exacta de cada una de ella pues es a partir de estas los buscadores localizan o no un recurso.
Tesauros
Es un listado terminológico controlado sobre un área o ámbito de conocimiento que mantiene entre sí relaciones semánticas y genéricas. Su principal característica es que los términos están ordenados jerárquicamente, permitiendo la precisión terminológica en la búsqueda de información.
Componentes:
Descriptores admitidos o preferentes: son aquellos términos normalizados (donde han sufrido un proceso de expurgo denegando plurales, evitando sinónimos, etc.) que el tesauro los considera aptos para asignarlos a un documento y que posteriormente facilite la recuperación.
Descriptores no admitidos: son aquellos que aun estando normalizados no se consideran adecuado para utilizarlos (suelen ser sinónimos, términos no utilizados en el campo de actuación, etc.)
Relaciones:
Jerárquicas: indican cuando un término es más específico que otro.
Asociativas: Indican que los términos guardan alguna relación.
Sinónimos: Indican que dos términos son sinónimos y cual de ellos se utiliza como admitido.
Lenguajes de interrogación y ecuaciones de búsqueda
Se puede definir a un lenguaje de interrogación como un conjunto de órdenes, operadores y estructuras que, organizados según unas normas lógicas, permiten la consulta de fuentes y recursos de información electrónica. El resultado de la combinación de estos elementos, siguiendo las normas establecidas, es una expresión, a la que se identifica con el nombre "ecuación", capaz de interrogar el contenido de la fuente de información
Las normas lógicas que rigen un lenguaje de interrogación responden a cuestiones relacionadas con la coordinación de los elementos, es decir, con la formulación de ecuaciones. Estas normas (a modo de sintaxis) especificarán el orden de los elementos, la disposición de las estructuras, sus posibilidades combinatorias, las prioridades en la ejecución, y todo tipo de posibles funciones. Las órdenes serán aquellas palabras o abreviaturas que le indicarán al sistema las acciones a ejecutar (buscar la expresión, mostrar los documentos o registros resultantes, consultar el tesauro o los ficheros inversos, ejecutar un perfil de usuario...). Sin embargo, no todos los lenguajes de interrogación utilizan las mismas palabras como órdenes, aunque las órdenes ejecuten las mismas funciones. Existen intentos para homogeneizar la interrogación de las bases de datos, como el lenguaje CCL (Common Command Language) promovido por la Unión Europea, que aún no han alcanzado el objetivo para el que fueron desarrollados. A este panorama se une la proliferación de interfaces gráficos de usuario, que sustituyen a las órdenes y la sintaxis tradicional, dejando al usuario (si éste lo desea) sólo la labor de introducir los términos y los operadores que expresan las relaciones existentes entre ellos.
Operadores
En un lenguaje de interrogación, los operadores son los encargados de expresar las relaciones que mantienen entre sí los términos que pueden definir las necesidades informativas del usuario. A continuación presentamos la topología de estos operadores
Operadores lógicos (o booleanos)
Los operadores lógicos, llamados booleanos en honor a George Boole, precursor de la lógica simbólica y del álgebra de conjuntos, son los más utilizados en numerosos sistemas. El principio que rige la utilización de este tipo de operadores es que las relaciones entre conceptos pueden expresarse como relaciones entre conjuntos. Las ecuaciones de búsqueda pueden transformarse en ecuaciones matemáticas, que ejecutan operaciones sobre los conjuntos, lo que da como resultado otro conjunto. Los tres operadores básicos son el operador suma/unión (generalmente identificado como O/OR), el operador producto/intersección (identificado como Y/AND), y el operador resta/negación (identificado como NO/NOT). A su vez estos operadores pueden combinarse entre si, generando operaciones más complejas, como el O exclusivo (elimina la intersección), etc.
No deben obviarse los problemas que plantean los operadores booleanos, independientemente de su potencia. En primer lugar, siempre se plantean en términos de absoluto (presente/ausente), sin consideran el peso específico del término en el contexto. En segundo lugar, exigen un alto valor de precisión en los términos utilizados. Por último requieren claridad en la composición de las expresiones a buscar.
Operadores posicionales.
La utilización de operadores posicionales pretende superar algunas de las limitaciones que ofrecen los operadores booleanos. Toman como punto de partida la consideración del valor del término dentro del contexto, es decir, que la posición de ese término en relación con otros, o dentro del propioregistro, es significativa para valorar su pertinencia a los objetivos buscados. Los operadores posicionales pueden dividirse en dos tipos:
Posicionales absolutos.
Son aquellos que permiten buscar un término en un lugar dado del documento o registro. Por regla general, son operadores de campo, es decir, permiten al usuario fijar en que campo o campos presentes en la estructura de base de datos debe aparecer el término buscado. La presencia del término en un campo dado (por ejemplo, en el campo título), puede ser una garantía de la adecuación del documento a los objetivos, en la mayor parte de las situaciones.
Posicionales relativos.
También llamados de proximidad, se trata de operadores que permiten establecer la posición de un término respecto a otro dado. Se considera que la cercanía entre los dos términos puede reflejar una íntima relación entre los conceptos reflejados por los mismos. Estos operadores permiten definir el nivel de proximidad entre los términos (mismo campo, línea, frase, número de términos significativos que los separa...)
Operadores de existencia
Indica cuando se requiere la presencia o ausencia de una palabra en los documentos recuperados (+, -)
Operadores de comparación
Especifican el rango de búsqueda, fijando unos límites para la misma. Estos límites pueden ser tanto numéricos como alfabéticos, correspondiendo los operadores a formas del tipo "mayor que", "menor o igual que". Se utilizan principalmente en documentos que pueden contener datos numéricos.
Operadores de truncamiento
Pueden darse situaciones en las cuales sea necesario utilizar no un término simple, sino también sus derivados, fijados por prefijación o sufijación, mínimas variantes léxicas, etc. Para facilitar la búsqueda de este tipo se han introducido operadores de truncamiento, a los que también se llama máscaras. Se trata de operadores (normalmente símbolos como *, $), cuya presencia puede sustituir a un carácter o a un conjunto de caracteres, situados a la izquierda, dentro o a la derecha del término en cuestión.
Tabla de operadores más comunes
En los actuales sistemas de recuperación de información es posible encontrar todos estos tipos de operadores, que pueden combinarse entre sí, permitiendo crear ecuaciones complejas que reflejan con bastante precisión los conceptos y sus relaciones. La combinación de los operadores debe respetar un conjunto de reglas, básicas en todos los sistemas, que establecen las prioridades y formas de ejecución de ecuaciones complejas, cuando éstas combinan más de dos conceptos.
En primer lugar, los sistemas tienden a resolver, a ejecutar en primer lugar, aquellas expresiones que se relacionan utilizando el operador más restrictivo o prioritario. Por ejemplo, un operador posicional absoluto posee un nivel de restricción (una prioridad) mayor que un operador booleano, lo que significa que el sistema ejecutará antes la expresión cuyo operador es el posicional absoluto, combinando posteriormente el resultado con el operador booleano y su término relacionado.
Sin embargo, pueden darse expresiones en las cuales sea necesario variar estas prioridades, y ordenar al sistema que ejecute en primer lugar expresiones con operadores de menor nivel de restricción, relacionando luego su resultado con términos a través de operadores más restrictivos. Para estas situaciones, se utilizan paréntesis, los cuales engloban a las expresiones que deben ejecutarse en primer lugar, independientemente de las prioridades fijadas por el sistema. La utilización de expresiones entre paréntesis hace posible, por ejemplo, que el resultado de una expresión con un operador booleano pueda ser combinada con un operador posicional absoluto. Además, los paréntesis pueden anidarse, resolviéndose las ecuaciones planteadas desde dentro hacia fuera, de la misma forma que las igualdades y polinomios matemáticos.
CAPITULO II:
Internet es un conglomerado ingente de recursos. Se calculan billones de bytes de documentación en general y programas que se pueden recoger de la red. Siendo tan inconmensurable esta cantidad de información, es necesario disponer de medios eficaces para localizar lo que necesitamos y poderrecuperar la misma.
Por razones históricas, la Internet se ha venido desarrollando de forma abierta y voluntaria, es decir cada quien, que lo desee, aporta información. Esta es la principal razón de su éxito: al no ser de nadie en particular, todo el mundo la considera un poco suya, y aporta su granito de arena. Pero al mismo tiempo es su debilidad; con todo el mundo aportando por su cuenta el orden es escaso, y la calidad no es homogénea. Esta situación resulta contraproducente en un desarrollo tecnológico de finales del siglo XX; pero en realidad es lo habitual en obras humanas tan ambicionas.
La Internet se parece mucho a una gran ciudad, donde las redes de comunicaciones proporcionan a modo de calles y accesos para llegar a los servicios que se ofrecen a los visitantes. Hay barrios interesantes y barrios peligrosos; hay tiendas de andar por casa, supermercados y tiendas de lujo; hay zonas que vale la pena visitar, y otras que no; hay ciudades universitarias y parques tecnológicos, etc. Como en toda ciudad un poco grande (y la Internet es muy grande), se necesitan planos y guías para saber a dónde ir y dónde encontrar lo que se necesita. [2]
2. Recuperación de la Información en Internet
El reto principal al realizar una consulta en Internet es conseguir que la pregunta recupere los documentos que se consideran realmente relevantes. La elaboración de la sintaxis de búsqueda es un aspecto fundamental. Para realizar las consultas en los Sistemas de Recuperación de Información, las preguntas son traducidas a las expresiones o enunciados de búsqueda correspondientes. Dicha expresión de búsqueda puede constar de varios elementos: términos, operadores lógicos, uso de paréntesis, truncamiento, formulación de la búsqueda en lenguaje natural, etc. En este sentido, una cuestión de trascendencia en el proceso de Recuperación de Información, y que ha generado una línea de investigación ciertamente interesante es laselección y eficacia de los términos de búsqueda utilizados en la interacción con el sistema de recuperación.
Una buena decisión es la de realizar las búsquedas en inglés, por ser la lengua de uso mayoritario en Internet, lo que aumenta las posibilidades de encontrar información en las consultas planteadas, sobre todo en los buscadores generales e internacionales, caso al que este estudio se refiere principalmente. Para plantear las consultas se ha de elegir entre la expresión booleana o lo que Leighton y Srivastava, denominan "expresión de búsqueda desesurucmrada", esto es, consultas en lenguaje natural. La naturaleza de las preguntas demanda sintaxis de búsqueda diferentes, booleana, de frase, de un término, etc..?. Y se ha de escoger la que en cada caso resulte, probable e intuitivamente, más adecuada sin descuidar que se ha de contribuir a la homogeneidad de los resultados para facilitar su comparación. Por esto, es una buena opción seleccionar la sintaxis y el modo de funcionamiento del motor con formatos más simples. No hay pues una única manera de plantear la consulta, ya que para elaborarla expresión de búsqueda hay que decidir cuántos y qué términos de la pregunta incluir, además hay que elegir si se formula la pregunta en lenguaje natural o usando la lógica booleana y, en este último caso, el modo de plantearla, además de otras opciones del programa, uso de mayúsculas, truncamiento, etc. Esto da lugar a expresiones de búsqueda de distinto tipo: unas utilizan términos más generales y otras más específicos; algunas constan de una sola palabra, otras, constituyen frases de búsqueda; unas usan la lógica booleana, otras se plantean como búsquedas de frase y otras como búsquedas en lenguaje natural; las hay que son nombres de persona; y en algunos casos se utiliza la mayúscula y el truncamiento, etc.2.1 Información en Internet
Los años 90 asisten a la aparición de un nuevo fenómeno de gran repercusión a todos los niveles y, por supuesto, en las Ciencias de la Información. LaWorld Wide Web (W3), Malla Mundial Multimedia o telaraña mundial de información, creada en 1990, es el acontecimiento que más ha contribuido a popularizar y extender el uso de la red. Sin embargo, Internet, y en especial la WWW, no se crearon en un principio para atender la publicación y recuperación organizada de información. Su amplio desarrollo y crecimiento posterior dificultan la localización de los documentos pertinentes y ha suscitado la necesidad de contar con herramientas de búsqueda que faciliten esta tarea.
2.2 TIPOS DE INFORMACIÓN A RECUPERAR
2.2.1 ARCHIVOS DE AUDIO:
La siguiente lista describe los formatos de archivo de audio más comunes junto con algunas de sus ventajas y desventajas en relación con el diseño Web.
El formato .midi o .mid (Interfaz digital para instrumentos musicales, Musical Instrument Digital Interface):
Es un formato de música instrumental. Los archivos MIDI son compatibles con numerosos navegadores y no precisan ningún plug-in. Aunque su calidad de sonido es muy alta, ésta puede variar en función de la tarjeta de sonido del visitante. Un archivo MIDI pequeño puede contener un clip de sonido de larga duración. Los archivos MIDI no se pueden grabar y deben sintetizarse en un ordenador con hardware y software especiales.
Los archivos de formato .wav (Extensión de forma de onda, Waveform Extension)
Ofrecen una buena calidad de sonido, son compatibles con numerosos navegadores y no requieren ningún plug-in. Puede grabar sus propios archivos WAV desde un CD, una cinta, a través de un micrófono, etc. Sin embargo, el gran tamaño de archivo limita considerablemente la duración de los clips de sonido que se pueden utilizar en las páginas Web.
El formato .aif (Formato de archivo de intercambio de audio, Audio Interchange File Format o AIFF):
Al igual que el formato WAV, ofrece buena calidad de sonido, se puede reproducir en la mayoría de los navegadores y no requiere plug-in. También se pueden grabar archivos AIFF desde un CD, unaࣩnta, a través de un micrófono, etc. Sin embargo, el৲an tamaño de archivo limita considerablemente la duración de los clips de sonido que se pueden utilizar enଡs páginas Web.
El formato .Mp3 (Audio del Grupo de Expertos en Imágenes en Movimiento, Motion Picture Experts Group Audio o MPEG-Audio Nivel-3) :
Formato de ficheros que contienen sonido en calidad digital, y que ha sido comprimido, es decir, que ocupa menos espacio del que debería ocupar. La calidad de sonido es excelente: si se graba y comprime correctamente un archivo MP3, su calidad es equiparable a la de un CD.
Con este sistema un archivo de una canción ocupa aproximadamente doce veces menos de lo que ocuparía sin comprimir. La tecnología MP3 permite reproducir el archivo en flujo de modo que el visitante no tenga que esperar a que se descargue todo el archivo para escucharlo. Sin embargo, el tamaño del archivo es superior al de un archivo Real Audio, por lo que una canción entera puede tardar bastante en descargarse en una conexión de módem de acceso telefónico (línea telefónica) típica. Para reproducir archivos MP3, los visitantes deberán descargar e instalar una aplicación auxiliar o un plug-in como QuickTime, Windows Media Player o RealPlayer.
El formato .ra, .ram, .rpm o Real Audio:
Tiene un alto grado de compresión con tamaños de archivo más pequeños que MP3. Permite descargar archivos de canciones completas en un período de tiempo razonable. Dado que los archivos se pueden reproducir en flujo desde un servidor Web normal, los visitantes pueden comenzar a escuchar el sonido antes de que el archivo se haya descargado por completo. Los visitantes deberán descargar e instalar la aplicación auxiliar o plug-in RealPlayer para reproducir estos archivos.
El formato .qt, .qtm, .mov o QuickTime :
Es un formato de audio y de vídeo desarrollado por Apple Computer. QuickTime está incluido con los sistemas operativos Apple Macintosh, y lo utilizan la mayoría de las aplicaciones de Macintosh que emplean audio, vídeo o animación. Los PC también pueden reproducir archivos en formato QuickTime, pero requieren un controlador de QuickTime especial. QuickTime admite la mayorí