Archive for agosto 2013

Los Políticos conocen la opinión ciudadana gracias a la minería de datos

By : Unknown
 Un proyecto de investigación busca integrar tecnologías de inteligencia artificial en una nueva plataforma de gobierno electrónico, que permita procesar en forma inteligente la opinión ciudadana que se brinda en algunas redes sociales como Facebook y Twitter. A través de la minería de datos investigadores filtran patrones significativos de información que pueden funcionar como una herramienta de referencia de la opinión ciudadana para las autoridades.


Una iniciativa del departamento de Ciencias e Ingeniería de la Computación de la UNS recibirá 50 mil dólares de un instituto científico integrado por Microsoft Research y el Banco Interamericano de Desarrollo. Apunta a integrar algunas de las tecnologías de inteligencia artificial desarrolladas por los investigadores del departamento, en una nueva plataforma de gobierno electrónico que permita procesar en forma inteligente la opinión ciudadana que se brinda en algunas redes sociales, como Facebook y Twitter.

De esta manera, funcionarios y políticos podrán conocer las opiniones e inclinaciones de las personas en determinados temas a través de sus expresiones en las redes sociales. Así, podrán contar con más información a la hora de tomar decisiones, reconocer corrientes de opinión, etc.

La idea central del proyecto consiste en la “agregación” inteligente de información provista por los usuarios de redes sociales. Para esto, se emplearán técnicas de minería de datos que consiste en la extracción de información que reside de manera implícita en los datos. Mediante estas técnicas es posible preparar, sondear y explorar los datos para sacar la información oculta en ellos. Se trata de la extracción de conocimiento procesable.

Para el proyecto se filtran patrones significativos en los datos provistos por los ciudadanos. Dado que distintos ciudadanos pueden tener diferentes visiones sobre un mismo tema, se identificarán argumentos a favor y en contra en la opinión ciudadana, los cuales podrán ser usados por las autoridades como un elemento de referencia de la opinión pública.

“Para dar un ejemplo, puede pensarse en distintos usuarios emitiendo comentarios en una página de una red social vinculada a la Municipalidad, que critiquen o alaben el sistema de transporte público. La minería de datos ayuda a dar un significado a las opiniones de manera automática (a partir de la identificación de opiniones positivas y negativas). Así, por ejemplo, en textos como: ‘Estoy cansado de esperar el colectivo y que no venga a horario’ se puede ‘minar’ el texto e identificar automáticamente que se trata de una opinión negativa asociada a que no se cumplen las frecuencias establecidas”, explicó a Argentina Investiga el doctor Carlos Chesñevar, docente e investigador de la UNS.

Luego, varias opiniones positivas (o negativas) pueden aglutinarse en un “argumento”, a favor o en contra de una conclusión, cuya fortaleza se incrementará cuando muchas opiniones sean coincidentes. “Puede argumentarse que hay problemas con las frecuencias de colectivos porque 200 ciudadanos se quejan al respecto. A través del proyecto se espera poder identificar automáticamente dichos argumentos y ofrecer una herramienta para poder sopesarlos, confrontarlos y evaluarlos para la toma de decisiones”, agregó el investigador.

Aplicación de Minería de Datos para la Segmentación Sociodemográfica de la Comuna de Santiago

By : Unknown


Dentro de las distintas instituciones saber quienes son sus clientes, qué los caracteriza y cómo poder acercarse a ellos, es un problema no trivial de resolver. Un primer paso consiste en efectuar una segmentación de los usuarios, pero para ello es necesario tener datos. En un escenario óptimo, se pueden mezclar datos privados (propios de la institución) con datos públicos (CENSO) para obtener soluciones descriptivas. Sin embargo, en Chile la mayoría de las veces los datos privados no están escritos de manera formal o las bases de datos tienen serias deficiencias en el contenido, por lo que sólo se cuenta con la segunda fuente.

En esta tesis se muestra que es posible efectuar buenas segmentaciones sociodemográficas en la base de datos del Censo 2002 aplicando algoritmos de clustering. Para ello se desarrolla una metodología de Minería de Datos que es aplicada en la comuna de Santiago.

Como resultado del proceso se lograron 6 grupos con marcadas diferencias sociodemográficas. Para enriquecer e interpretar geográficamente los resultados, ellos se graficaron en un Sistema de Información Geográfico. Este sistema arrojó que los grupos detectados se agrupaban formando barrios con distribuciones coherentes de hogares con características sociodemográficas similares.

Inteligencia artificial en la minería de datos

By : Unknown
La inteligencia artificial es un sistema informático que simula un sistema inteligente,allí se procede al análisis de los datos disponibles. Entre los sistemas de Inteligencia Artificial se encuadrarían los Sistemas Expertos y las Redes Neuronales.

Los Sistemas Expertos son sistemas que han sido creados a partir de reglas prácticas extraídas del conocimiento de expertos. Principalmente a base de inferencias o de causa-efecto.

Las redes neuronales son ampliamente utilizadas en tareas relacionadas con el reconocimiento de patrones y sistemas de clasificación. Aunque son clasificadores muy precisos, su uso en minería de datos es aún área en estudio puesto que dan lugar a modelos de aprendizaje inestables.
Las redes neuronales son modelos matemáticos simples de interconexión entre neuronas artificiales. Las neuronas representan mediante simulación, los procesos que se dan sobre las neuronas del cerebro humano. Así, es entrenada a partir de un conjunto inicial de entrenamiento donde se generalizan patrones de predicción y clasificación. Cada neurona de la red procesa de forma independiente los datos que le llegan y reporta los resultados obtenidos del proceso interno a la siguiente capa de la red.

Aplicaciones de las redes neuronales

  • Reconocimiento de texto y voz
  • Clasificadores léxicos y de contenidos
  • Identificación de parámetros biométricos
  • Estimación de probabilidades en estudios médicos y farmacéuticos

Prohíben la Minería de Datos en PokerStars

By : Realidad

"En general, ¿qué tipo de programas están prohibidos?

  • Cualquier programa que comparta datos sobre las cartas privadas con otros jugadores o programas que infrinjan las normas.
  • Cualquier programa que funcione con una base de datos central de perfiles de jugadores o de manos jugadas.
  • Cualquier programa que juegue sin intervención humana (un bot) o no requiera la presencia de un humano. Por ejemplo, un programa que tire tus cartas de forma automática en tu ausencia.
  • Cualquier práctica de datamining (observar partidas como no jugador durante largos periodos de tiempo para construir un amplio historial de manos para futuras referencias).
  • Cualquier software que ofrezca recomendaciones sobre qué decisión se debe tomar, y que son fácilmente configurables o programables para establecer el nivel de agresividad o cautela.


Algunos programas prohibidos enumerados anteriormente son páginas web, especialmente las relacionadas condatamining o extracción de datos. ¿Qué pasos tomáis para evitar el uso?

PokerStars cree que es mejor tomar medidas contra estos servicios de raíz. Por tanto, mejoramos nuestro software continuamente para evitar que el datamining afecte a nuestros juegos. Además, PokerStars se reserva el derecho de tomar medidas legales que considere oportunas contra todo servicio que incumpla nuestros términos de servicio de perniciosa y repetidamente."

Como saben la Minería de datos al extraer datos y ganar información podemos reconstruirla y hacer una estrategia en base a esto, por eso en algunos juegos lo prohíben.

Algoritrmos y técnicas de minería de datos

By : Unknown

Las técnicas de la minería de datos provienen de la Inteligencia artificial y de la estadística. Dichas técnicas, no son más que algoritmos, más o menos sofisticados que se aplican sobre un conjunto de datos para obtener unos resultados.
El hecho es, que en la práctica la totalidad de los modelos y algoritmos de uso general en minería de datos —Redes neuronalesÁrbol de decisiónregresión lineal y clasificación, modelos logísticos, análisis de componentes principales, etc.— gozan de una tradición relativamente larga en otros campos.
Las técnicas más representativas de la estadística y la informática son:
  • Redes neuronales: Son un paradigma de aprendizaje y procesamiento automático inspirado en la forma en que funciona el sistema nervioso de los animales. Se trata de un sistema de interconexión de neuronas en una red que colabora para producir un estímulo de salida. Genéricamente, son métodos de proceso numérico en paralelo, en el que las variables interactúan mediante transformaciones lineales o no lineales, hasta obtener unas salidas. Estas salidas se contrastan con los que tenían que haber salido, basándose en unos datos de prueba, dando lugar a un proceso de retroalimentación mediante el cual la red se reconfigura, hasta obtener un modelo adecuado.
  • Regresión lineal: Es la más utilizada para formar relaciones entre datos. Es rápida y eficaz, pero insuficiente en espacios multidimensionales donde puedan relacionarse más de 2 variables. Define la relación entre una o más variables y un conjunto de variables predictoras de las primeras.
  • Árboles de decisión: es un modelo de predicción utilizado en el ámbito de la inteligencia artificial. Dada una base de datos se construyen estos diagramas de construcciones lógicas, muy similares a los sistemas de predicción basados en reglas, que sirven para representar y categorizar una serie de condiciones que suceden de forma sucesiva, para la resolución de un problema.
  • Modelos estadísticos: Es una expresión simbólica en forma de igualdad o ecuación que se emplea en todos los diseños experimentales y en la regresión para indicar los diferentes factores que modifican la variable de respuesta.
  • Agrupamiento o Clustering: Es un procedimiento de agrupación de una serie de vectores según criterios habitualmente de distancia. Permite la clasificación de una población de individuos caracterizados por múltiples atributos (binarios, cualitativos o cuantitativos) en un número determinado de grupos, con base en las semejanzas o diferencias de los individuos. Se tratará de disponer los vectores de entrada de forma que estén más cercanos aquellos que tengan características comunes.
  • Análisis de varianza: evalúa la existencia de diferencias significativas entre las medias de una o más variables continuas en poblaciones distintos.
  • Prueba chi-cuadrado: por medio de la cual se realiza el contraste la hipótesis de dependencia entre variables.
  • Análisis discriminante: permite la clasificación de individuos en grupos que previamente se han establecido. También posibilita encontrar la regla de clasificación de los elementos de estos grupos, y por tanto una mejor identificación de cuáles son las variables que definan la pertenencia al grupo.
  • Series de tiempo: permite el estudio de la evolución de una variable a través del tiempo, para poder realizar predicciones, a partir de ese conocimiento y bajo el supuesto de que no van a producirse cambios estructurales.
  • Algoritmos genéticos: Son métodos numéricos de optimización, en los que aquella variable o variables que se pretenden optimizar junto con las variables de estudio constituyen un segmento de información. Aquellas configuraciones de las variables de análisis que obtengan mejores valores para la variable de respuesta, corresponderán a segmentos con mayor capacidad reproductiva. A través de la reproducción, los mejores segmentos perduran y su proporción crece de generación en generación. Se puede además introducir elementos aleatorios para la modificación de las variables (mutaciones). Al cabo de cierto número de iteraciones, la población estará constituida por buenas soluciones al problema de optimización, pues las malas soluciones han ido descartándose, iteración tras iteración.
  • Inteligencia artificial: Mediante un sistema informático que simula un sistema inteligente, se procede al análisis de los datos disponibles. Entre los sistemas de Inteligencia Artificial se encuadrarían los Sistemas Expertos y las Redes Neuronales.
  • Sistemas Expertos: Son sistemas que han sido creados a partir de reglas prácticas extraídas del conocimiento de expertos. Principalmente a base de inferencias o de causa-efecto.
  • Sistemas Inteligentes: Son similares a los sistemas expertos, pero con mayor ventaja ante nuevas situaciones desconocidas para el experto.

Principales características de la minería de datos

By : Unknown
  • Explorar los datos que se encuentran en las profundidades de las bases de datos (por ejemplo los Almacenes de Datos), que algunas veces contienen información almacenada durante varios años.
  • En algunos casos, los datos se consolidan en un almacén de datos y en mercados de datos; en otros, se mantienen en servidores deInternet e Intranet.
  • Las herramientas de la minería de datos ayudan a extraer el mineral de la información registrado en archivos corporativos o en registros públicos, archivados.
  • El minero es, muchas veces un usuario final con poca o ninguna habilidad de programación, facultado por barrenadoras de datos y otras poderosas herramientas indagatorias, para efectuar preguntas ad-hoc y obtener rápidamente respuestas.
  • Hurgar y sacudir a menudo implica el descubrimiento de resultados valiosos e inesperados.
  • Las herramientas de la minería de datos se combinan fácilmente y pueden analizarse y procesarse rápidamente.
  • Debido a la gran cantidad de datos, algunas veces resulta necesario usar procesamiento en paralelo para la minería de datos.
  • La minería de datos produce cinco tipos de información:
  1. Asociaciones.
  2. Secuencias.
  3. Clasificaciones.
  4. Agrupamientos.
  5. Pronósticos.
  • Los mineros de datos usan varias herramientas y técnicas.
La minería de datos es un proceso que invierte la dinámica del método científico en el siguiente sentido:
  • En el método científico, primero se formula la hipótesis y luego se diseña el experimento para coleccionar los datos que confirmen o refuten la hipótesis. Si esto se hace con la formalidad adecuada (cuidando cuáles son las variables controladas y cuáles experimentales), se obtiene un nuevo conocimiento.
  • En la minería de datos, se coleccionan los datos y se espera que de ellos emerjan hipótesis. Luego entonces, se valida esa hipótesis inspirada por los datos en los datos mismos, será numéricamente significativa, pero experimentalmente inválida. De ahí que la minería de datos debe presentar un enfoque exploratorio, y no confirmador. Usar la minería de datos para confirmar las hipótesis formuladas puede ser peligroso, pues se está haciendo una inferencia poco válida.

Etapas principales para aplicar la minería de datos

By : Unknown
 Aunque en datamining (Del inglés: Minería de datos) cada caso concreto puede ser radicalmente distinto al anterior, el proceso común a todos ellos se suele componer de cuatro etapas principales:

*    Determinación de los objetivos. Trata de la delimitación de los objetivos que el cliente desea bajo la orientación del especialista en data mining.
*  Preprocesamiento de los datos. Se refiere a la selección, la limpieza, el enriquecimiento, la reducción y la transformación de las bases de datos. Esta etapa consume generalmente alrededor del setenta por ciento del tiempo total de un proyecto de data mining.
*  Determinación del modelo. Se comienza realizando unos análisis estadísticos de los datos, y después se lleva a cabo una visualización gráfica de los mismos para tener una primera aproximación. Según los objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en diferentes áreas de la Inteligencia Artificial.
*   Análisis de los resultados. Verifica si los resultados obtenidos son coherentes y los coteja con los obtenidos por los análisis estadísticos y de visualización gráfica. El cliente determina si son novedosos y si le aportan un nuevo conocimiento que le permita considerar sus decisiones.

- Copyright © Minería de Datos - -