Archive for 2013

Los Políticos conocen la opinión ciudadana gracias a la minería de datos

By : Unknown
 Un proyecto de investigación busca integrar tecnologías de inteligencia artificial en una nueva plataforma de gobierno electrónico, que permita procesar en forma inteligente la opinión ciudadana que se brinda en algunas redes sociales como Facebook y Twitter. A través de la minería de datos investigadores filtran patrones significativos de información que pueden funcionar como una herramienta de referencia de la opinión ciudadana para las autoridades.


Una iniciativa del departamento de Ciencias e Ingeniería de la Computación de la UNS recibirá 50 mil dólares de un instituto científico integrado por Microsoft Research y el Banco Interamericano de Desarrollo. Apunta a integrar algunas de las tecnologías de inteligencia artificial desarrolladas por los investigadores del departamento, en una nueva plataforma de gobierno electrónico que permita procesar en forma inteligente la opinión ciudadana que se brinda en algunas redes sociales, como Facebook y Twitter.

De esta manera, funcionarios y políticos podrán conocer las opiniones e inclinaciones de las personas en determinados temas a través de sus expresiones en las redes sociales. Así, podrán contar con más información a la hora de tomar decisiones, reconocer corrientes de opinión, etc.

La idea central del proyecto consiste en la “agregación” inteligente de información provista por los usuarios de redes sociales. Para esto, se emplearán técnicas de minería de datos que consiste en la extracción de información que reside de manera implícita en los datos. Mediante estas técnicas es posible preparar, sondear y explorar los datos para sacar la información oculta en ellos. Se trata de la extracción de conocimiento procesable.

Para el proyecto se filtran patrones significativos en los datos provistos por los ciudadanos. Dado que distintos ciudadanos pueden tener diferentes visiones sobre un mismo tema, se identificarán argumentos a favor y en contra en la opinión ciudadana, los cuales podrán ser usados por las autoridades como un elemento de referencia de la opinión pública.

“Para dar un ejemplo, puede pensarse en distintos usuarios emitiendo comentarios en una página de una red social vinculada a la Municipalidad, que critiquen o alaben el sistema de transporte público. La minería de datos ayuda a dar un significado a las opiniones de manera automática (a partir de la identificación de opiniones positivas y negativas). Así, por ejemplo, en textos como: ‘Estoy cansado de esperar el colectivo y que no venga a horario’ se puede ‘minar’ el texto e identificar automáticamente que se trata de una opinión negativa asociada a que no se cumplen las frecuencias establecidas”, explicó a Argentina Investiga el doctor Carlos Chesñevar, docente e investigador de la UNS.

Luego, varias opiniones positivas (o negativas) pueden aglutinarse en un “argumento”, a favor o en contra de una conclusión, cuya fortaleza se incrementará cuando muchas opiniones sean coincidentes. “Puede argumentarse que hay problemas con las frecuencias de colectivos porque 200 ciudadanos se quejan al respecto. A través del proyecto se espera poder identificar automáticamente dichos argumentos y ofrecer una herramienta para poder sopesarlos, confrontarlos y evaluarlos para la toma de decisiones”, agregó el investigador.

Aplicación de Minería de Datos para la Segmentación Sociodemográfica de la Comuna de Santiago

By : Unknown


Dentro de las distintas instituciones saber quienes son sus clientes, qué los caracteriza y cómo poder acercarse a ellos, es un problema no trivial de resolver. Un primer paso consiste en efectuar una segmentación de los usuarios, pero para ello es necesario tener datos. En un escenario óptimo, se pueden mezclar datos privados (propios de la institución) con datos públicos (CENSO) para obtener soluciones descriptivas. Sin embargo, en Chile la mayoría de las veces los datos privados no están escritos de manera formal o las bases de datos tienen serias deficiencias en el contenido, por lo que sólo se cuenta con la segunda fuente.

En esta tesis se muestra que es posible efectuar buenas segmentaciones sociodemográficas en la base de datos del Censo 2002 aplicando algoritmos de clustering. Para ello se desarrolla una metodología de Minería de Datos que es aplicada en la comuna de Santiago.

Como resultado del proceso se lograron 6 grupos con marcadas diferencias sociodemográficas. Para enriquecer e interpretar geográficamente los resultados, ellos se graficaron en un Sistema de Información Geográfico. Este sistema arrojó que los grupos detectados se agrupaban formando barrios con distribuciones coherentes de hogares con características sociodemográficas similares.

Inteligencia artificial en la minería de datos

By : Unknown
La inteligencia artificial es un sistema informático que simula un sistema inteligente,allí se procede al análisis de los datos disponibles. Entre los sistemas de Inteligencia Artificial se encuadrarían los Sistemas Expertos y las Redes Neuronales.

Los Sistemas Expertos son sistemas que han sido creados a partir de reglas prácticas extraídas del conocimiento de expertos. Principalmente a base de inferencias o de causa-efecto.

Las redes neuronales son ampliamente utilizadas en tareas relacionadas con el reconocimiento de patrones y sistemas de clasificación. Aunque son clasificadores muy precisos, su uso en minería de datos es aún área en estudio puesto que dan lugar a modelos de aprendizaje inestables.
Las redes neuronales son modelos matemáticos simples de interconexión entre neuronas artificiales. Las neuronas representan mediante simulación, los procesos que se dan sobre las neuronas del cerebro humano. Así, es entrenada a partir de un conjunto inicial de entrenamiento donde se generalizan patrones de predicción y clasificación. Cada neurona de la red procesa de forma independiente los datos que le llegan y reporta los resultados obtenidos del proceso interno a la siguiente capa de la red.

Aplicaciones de las redes neuronales

  • Reconocimiento de texto y voz
  • Clasificadores léxicos y de contenidos
  • Identificación de parámetros biométricos
  • Estimación de probabilidades en estudios médicos y farmacéuticos

Prohíben la Minería de Datos en PokerStars

By : Realidad

"En general, ¿qué tipo de programas están prohibidos?

  • Cualquier programa que comparta datos sobre las cartas privadas con otros jugadores o programas que infrinjan las normas.
  • Cualquier programa que funcione con una base de datos central de perfiles de jugadores o de manos jugadas.
  • Cualquier programa que juegue sin intervención humana (un bot) o no requiera la presencia de un humano. Por ejemplo, un programa que tire tus cartas de forma automática en tu ausencia.
  • Cualquier práctica de datamining (observar partidas como no jugador durante largos periodos de tiempo para construir un amplio historial de manos para futuras referencias).
  • Cualquier software que ofrezca recomendaciones sobre qué decisión se debe tomar, y que son fácilmente configurables o programables para establecer el nivel de agresividad o cautela.


Algunos programas prohibidos enumerados anteriormente son páginas web, especialmente las relacionadas condatamining o extracción de datos. ¿Qué pasos tomáis para evitar el uso?

PokerStars cree que es mejor tomar medidas contra estos servicios de raíz. Por tanto, mejoramos nuestro software continuamente para evitar que el datamining afecte a nuestros juegos. Además, PokerStars se reserva el derecho de tomar medidas legales que considere oportunas contra todo servicio que incumpla nuestros términos de servicio de perniciosa y repetidamente."

Como saben la Minería de datos al extraer datos y ganar información podemos reconstruirla y hacer una estrategia en base a esto, por eso en algunos juegos lo prohíben.

Algoritrmos y técnicas de minería de datos

By : Unknown

Las técnicas de la minería de datos provienen de la Inteligencia artificial y de la estadística. Dichas técnicas, no son más que algoritmos, más o menos sofisticados que se aplican sobre un conjunto de datos para obtener unos resultados.
El hecho es, que en la práctica la totalidad de los modelos y algoritmos de uso general en minería de datos —Redes neuronalesÁrbol de decisiónregresión lineal y clasificación, modelos logísticos, análisis de componentes principales, etc.— gozan de una tradición relativamente larga en otros campos.
Las técnicas más representativas de la estadística y la informática son:
  • Redes neuronales: Son un paradigma de aprendizaje y procesamiento automático inspirado en la forma en que funciona el sistema nervioso de los animales. Se trata de un sistema de interconexión de neuronas en una red que colabora para producir un estímulo de salida. Genéricamente, son métodos de proceso numérico en paralelo, en el que las variables interactúan mediante transformaciones lineales o no lineales, hasta obtener unas salidas. Estas salidas se contrastan con los que tenían que haber salido, basándose en unos datos de prueba, dando lugar a un proceso de retroalimentación mediante el cual la red se reconfigura, hasta obtener un modelo adecuado.
  • Regresión lineal: Es la más utilizada para formar relaciones entre datos. Es rápida y eficaz, pero insuficiente en espacios multidimensionales donde puedan relacionarse más de 2 variables. Define la relación entre una o más variables y un conjunto de variables predictoras de las primeras.
  • Árboles de decisión: es un modelo de predicción utilizado en el ámbito de la inteligencia artificial. Dada una base de datos se construyen estos diagramas de construcciones lógicas, muy similares a los sistemas de predicción basados en reglas, que sirven para representar y categorizar una serie de condiciones que suceden de forma sucesiva, para la resolución de un problema.
  • Modelos estadísticos: Es una expresión simbólica en forma de igualdad o ecuación que se emplea en todos los diseños experimentales y en la regresión para indicar los diferentes factores que modifican la variable de respuesta.
  • Agrupamiento o Clustering: Es un procedimiento de agrupación de una serie de vectores según criterios habitualmente de distancia. Permite la clasificación de una población de individuos caracterizados por múltiples atributos (binarios, cualitativos o cuantitativos) en un número determinado de grupos, con base en las semejanzas o diferencias de los individuos. Se tratará de disponer los vectores de entrada de forma que estén más cercanos aquellos que tengan características comunes.
  • Análisis de varianza: evalúa la existencia de diferencias significativas entre las medias de una o más variables continuas en poblaciones distintos.
  • Prueba chi-cuadrado: por medio de la cual se realiza el contraste la hipótesis de dependencia entre variables.
  • Análisis discriminante: permite la clasificación de individuos en grupos que previamente se han establecido. También posibilita encontrar la regla de clasificación de los elementos de estos grupos, y por tanto una mejor identificación de cuáles son las variables que definan la pertenencia al grupo.
  • Series de tiempo: permite el estudio de la evolución de una variable a través del tiempo, para poder realizar predicciones, a partir de ese conocimiento y bajo el supuesto de que no van a producirse cambios estructurales.
  • Algoritmos genéticos: Son métodos numéricos de optimización, en los que aquella variable o variables que se pretenden optimizar junto con las variables de estudio constituyen un segmento de información. Aquellas configuraciones de las variables de análisis que obtengan mejores valores para la variable de respuesta, corresponderán a segmentos con mayor capacidad reproductiva. A través de la reproducción, los mejores segmentos perduran y su proporción crece de generación en generación. Se puede además introducir elementos aleatorios para la modificación de las variables (mutaciones). Al cabo de cierto número de iteraciones, la población estará constituida por buenas soluciones al problema de optimización, pues las malas soluciones han ido descartándose, iteración tras iteración.
  • Inteligencia artificial: Mediante un sistema informático que simula un sistema inteligente, se procede al análisis de los datos disponibles. Entre los sistemas de Inteligencia Artificial se encuadrarían los Sistemas Expertos y las Redes Neuronales.
  • Sistemas Expertos: Son sistemas que han sido creados a partir de reglas prácticas extraídas del conocimiento de expertos. Principalmente a base de inferencias o de causa-efecto.
  • Sistemas Inteligentes: Son similares a los sistemas expertos, pero con mayor ventaja ante nuevas situaciones desconocidas para el experto.

Principales características de la minería de datos

By : Unknown
  • Explorar los datos que se encuentran en las profundidades de las bases de datos (por ejemplo los Almacenes de Datos), que algunas veces contienen información almacenada durante varios años.
  • En algunos casos, los datos se consolidan en un almacén de datos y en mercados de datos; en otros, se mantienen en servidores deInternet e Intranet.
  • Las herramientas de la minería de datos ayudan a extraer el mineral de la información registrado en archivos corporativos o en registros públicos, archivados.
  • El minero es, muchas veces un usuario final con poca o ninguna habilidad de programación, facultado por barrenadoras de datos y otras poderosas herramientas indagatorias, para efectuar preguntas ad-hoc y obtener rápidamente respuestas.
  • Hurgar y sacudir a menudo implica el descubrimiento de resultados valiosos e inesperados.
  • Las herramientas de la minería de datos se combinan fácilmente y pueden analizarse y procesarse rápidamente.
  • Debido a la gran cantidad de datos, algunas veces resulta necesario usar procesamiento en paralelo para la minería de datos.
  • La minería de datos produce cinco tipos de información:
  1. Asociaciones.
  2. Secuencias.
  3. Clasificaciones.
  4. Agrupamientos.
  5. Pronósticos.
  • Los mineros de datos usan varias herramientas y técnicas.
La minería de datos es un proceso que invierte la dinámica del método científico en el siguiente sentido:
  • En el método científico, primero se formula la hipótesis y luego se diseña el experimento para coleccionar los datos que confirmen o refuten la hipótesis. Si esto se hace con la formalidad adecuada (cuidando cuáles son las variables controladas y cuáles experimentales), se obtiene un nuevo conocimiento.
  • En la minería de datos, se coleccionan los datos y se espera que de ellos emerjan hipótesis. Luego entonces, se valida esa hipótesis inspirada por los datos en los datos mismos, será numéricamente significativa, pero experimentalmente inválida. De ahí que la minería de datos debe presentar un enfoque exploratorio, y no confirmador. Usar la minería de datos para confirmar las hipótesis formuladas puede ser peligroso, pues se está haciendo una inferencia poco válida.

Etapas principales para aplicar la minería de datos

By : Unknown
 Aunque en datamining (Del inglés: Minería de datos) cada caso concreto puede ser radicalmente distinto al anterior, el proceso común a todos ellos se suele componer de cuatro etapas principales:

*    Determinación de los objetivos. Trata de la delimitación de los objetivos que el cliente desea bajo la orientación del especialista en data mining.
*  Preprocesamiento de los datos. Se refiere a la selección, la limpieza, el enriquecimiento, la reducción y la transformación de las bases de datos. Esta etapa consume generalmente alrededor del setenta por ciento del tiempo total de un proyecto de data mining.
*  Determinación del modelo. Se comienza realizando unos análisis estadísticos de los datos, y después se lleva a cabo una visualización gráfica de los mismos para tener una primera aproximación. Según los objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en diferentes áreas de la Inteligencia Artificial.
*   Análisis de los resultados. Verifica si los resultados obtenidos son coherentes y los coteja con los obtenidos por los análisis estadísticos y de visualización gráfica. El cliente determina si son novedosos y si le aportan un nuevo conocimiento que le permita considerar sus decisiones.

Algoritmos de minería de datos (Analysis Services: Minería de datos)

By : Realidad

Un algoritmo de minería de datos es un conjunto de cálculos y reglas heurísticas que permite crear un modelo de minería de datos a partir de los datos.Para crear un modelo, el algoritmo analiza primero los datos proporcionados, en busca de tipos específicos de patrones o tendencias. El algoritmo usa los resultados de este análisis para definir los parámetros óptimos para la creación del modelo de minería de datos. A continuación, estos parámetros se aplican en todo el conjunto de datos para extraer patrones procesables y estadísticas detalladas.
El modelo de minería de datos que crea un algoritmo a partir de los datos puede tomar diversas formas, incluyendo:
  • Un conjunto de clústeres que describe cómo se relacionan los casos de un conjunto de datos.
  • Un árbol de decisión que predice un resultado y que describe cómo afectan a este los distintos criterios.
  • Un modelo matemático que predice las ventas.
  • Un conjunto de reglas que describen cómo se agrupan los productos en una transacción, y las probabilidades de que dichos productos se adquieran juntos.
Microsoft SQL Server Analysis Services proporciona varios algoritmos que puede usar en las soluciones de minería de datos. Estos algoritmos son implementaciones de algunas de las metodologías más conocidas usadas en la minería de datos. Todos los algoritmos de minería de datos de Microsoft se pueden personalizar y son totalmente programables, bien mediante las API proporcionadas o bien mediante los componentes de minería de datos de SQL Server Integration Services.
También puede usar algoritmos de minería de datos desarrollados por terceros que cumplan la especificación OLE DB para minería de datos, o desarrollar algoritmos personalizados que se pueden registrar como servicios para usarlos a continuación en el marco de la minería de datos de SQL Server.
La elección del mejor algoritmo para una tarea analítica específica puede ser un desafío. Aunque puede usar diferentes algoritmos para realizar la misma tarea, cada uno de ellos genera un resultado diferente, y algunos pueden generar más de un tipo de resultado. Por ejemplo, puede usar el algoritmo Árboles de decisión de Microsoft no solo para la predicción, sino también como una forma de reducir el número de columnas de un conjunto de datos, ya que el árbol de decisión puede identificar las columnas que no afectan al modelo de minería de datos final.

Elegir un algoritmo por tipo

Analysis Services incluye los siguientes tipos de algoritmos:
  • Algoritmos de clasificación, que predicen una o más variables discretas, basándose en otros atributos del conjunto de datos.
  • Algoritmos de regresión, que predicen una o más variables continuas, como las pérdidas o los beneficios, basándose en otros atributos del conjunto de datos.
  • Algoritmos de segmentación, que dividen los datos en grupos, o clústeres, de elementos que tienen propiedades similares.
  • Algoritmos de asociación, que buscan correlaciones entre diferentes atributos de un conjunto de datos. La aplicación más común de esta clase de algoritmo es la creación de reglas de asociación, que pueden usarse en un análisis de la cesta de compra.
  • Algoritmos de análisis de secuencias, que resumen secuencias o episodios frecuentes en los datos, como un flujo de rutas web.
Sin embargo, no hay ninguna razón por la que deba limitarse a un algoritmo en sus soluciones. Los analistas experimentados usarán a veces un algoritmo para determinar las entradas más eficaces (es decir, variables) y luego aplicarán un algoritmo diferente para predecir un resultado concreto basado en esos datos. La minería de datos de SQL Server le permite generar varios modelos en una única estructura de minería de datos, por lo que en una solución de minería de datos puede usar un algoritmo de clústeres, un modelo de árboles de decisión y un modelo de Bayes naïve para obtener distintas vistas de los datos. También puede usar varios algoritmos dentro de una única solución para realizar tareas independientes: por ejemplo, podría usar la regresión para obtener predicciones financieras, y un algoritmo de red neuronal para realizar un análisis de los factores que influyen en las ventas.

Mitigar Inyecciones SQL con Técnicas de Minería de Datos

By : Realidad
Mitigar Inyecciones SQL con Técnicas de Minería de Datos

Las tecnologías y software desarrollados en el mundo es un producto de la inteligencia y conocimiento humano, y como producto de este no están exentas de errores. Estos errores de las tecnologías y software conocidos comúnmente como vulnerabilidades. Las vulnerabilidades informáticas pueden ser aprovechas por intrusos con la intención de obtener informaciones de un sistema o adueñarse de él violando normas de seguridad. Con el objetivo de que los administradores de sistemas y usuarios conozcan las vulnerabilidades que van apareciendo se han creado bases de datos internaciones que contienen estas informaciones. Estas bases de datos estandarizan esta información y brindan la posible solución a los problemas de seguridad que estas representan. Un tipo de ataques a vulnerabilidades son las inyecciones SQL, las cuales consisten en la inserción o “inyección” de una consulta SQL a través de los datos de entrada que posee las aplicaciones o mediante la URL. Con el empleo de técnicas de minería de datos se pueden mitigar muchos ataques de inyecciones SQL.

MINERÍA DE DATOS APLICADA EN DETECCIÓN DE INTRUSOS

By : Realidad



Diego Vallejo P.
Bancolombia. Medellín, Colombia dvallejo@bancolombia.com.co
Germán Tenelanda V.
HLB Fast & ABS Auditores. Medellín, Colombia
german.tenelanda@fastauditores.com
(Tipo de Artículo: Reflexión. Recibido el 25/11/2011. Aprobado el 25/04/2012)
RESUMEN
Con base a los fundamentos y técnicas de la minería de datos se pueden diseñar y elaborar modelos que permiten encontrar comportamientos clandestinos de fácil detección a simple vista como lo es la información no evidente -desconocida a priori y potencialmente útil- en referencia a hechos determinados. En particular la utilidad de la minería de datos en esta área radica en una serie de técnicas, algoritmos y métodos que imitan la característica humana del aprendizaje: ser capaz de extraer nuevos conocimientos a partir de las experiencias. La minería de datos posee características como: análisis de grandes volúmenes de información, generación de comportamientos que no son fácilmente perceptibles, depuración de datos para toma de decisiones. Estas características pueden ser de vital importancia para ser aplicadas en la seguridad de la información a través de la detección de intrusos. En la actualidad la seguridad de la información es uno de los grandes retos que tiene el mundo, y en especial, la detección de anomalías en los registros de acceso de los diferentes sistemas de información. Con esta aplicabilidad resulta un método básico y muy eficiente de poder prevenir intrusiones. Se centra el campo de en la detección de intrusos al nutrir el proceso de seguimiento de los acontecimientos que ocurren en la red informática, seguido del análisis de los mismos; con el fin de detectar los factores que ponen en peligro la confidencialidad, integridad, disponibilidad y no repudio de los datos. En el presente trabajo se pretende mostrar el aporte a la seguridad de la información de la minería de datos en el contexto de la detección de intrusos.

La aplicación de la Minería de Datos en Twitter

By : Realidad

Twitter nos permite gracias a sus API el poder acceder a datos importantes más allá de los que están a la vista, con esto al juntar Ruby con el API de Twitter, podemos sacar tendencias de la gente el cual usa esta red Social, para saber como usar estas funciones dejamos aquí un enlace el cual explica la forma de aplicar el API de Twitter:

Tag : ,

- Copyright © Minería de Datos - -