Advertencia: Esta página es una traducción de esta página originalmente en inglés. Tenga en cuenta ya que las traducciones son generadas por máquinas, no que todos traducción será perfecto. Este sitio Web y sus páginas están destinadas a leerse en inglés. Cualquier traducción de este sitio Web y su páginas Web puede ser imprecisa e inexacta en su totalidad o en parte. Esta traducción se proporciona como una conveniencia.

El nuevo superordenador dato-intensivo puede ayudar a combate la extensión del virus de Zika

Más de 50 científicos de los datos, ingenieros, y estudiantes de UT Austin recolectaron el domingo 15 de mayo de 2016 para utilizar datos grandes para luchar la extensión de Zika para “Austin Zika Hackathon” en las oficinas de Cloudera en el centro de la ciudad.

Zika, una enfermedad transmitida por mosquitos que pueda causar fiebre y defectos de nacimiento, amenaza extenderse a los Estados Unidos. A mediados de mayo de 2016, México había denunciado 272 casos de Zika, según USA Today. El problema ha crecido tan grande que presidente Obama ha solicitado $1,9 mil millones para parar la extensión de Zika. Los centros de los E.E.U.U. para el control de enfermedades ahora ramping hacia arriba la recogida de datos que rastreen la extensión de Zika. Pero los entrehierros grandes existen en la conexión de diversas clases de datos, y ése hace resistente para que los expertos predigan adonde irá después y lo que a hacer para prevenirlo.

Los participantes de Zika Hackathon investigaron maneras de reunir juntos diversos equipos de datos, tales como partes del brote, fuentes de agua estancadas, piscinas y charcas vacías que son caldos de cultivo potenciales del mosquito, y alimentaciones incluso de Facebook y de Twitter. El centro de cómputo avance Tejas (TACC) proyecta salvar todos los datos en un lugar, un nuevo superordenador dato-intensivo llamado Wrangler.

“Estamos intentando cerco estos pedazos dispares de datos, y no hay una buena manera para que la gente pida a preguntas acerca de ése datos--ése es el problema grande,” dijo a Ari Kahn, coordinador de translación humano de la genómica en TACC.

Kahn dicho: El “papel de TACC está ofreciendo una infraestructura y está consultando para soportar este proyecto. Wrangler es un sistema dato-intensivo especializado que funciona con una versión optimizada de Cloudera, y acelera realmente el proceso.”

Cloudera es una compañía grande de los datos, según su principal organizador Eddie García del arquitecto y de Zika Hackathon de la seguridad. “Qué lo hacemos es hacen Apache Hadoop empresa-listo para que las organizaciones hagan analytics grande de los datos y encontrar nuevos discernimientos dentro de sus conjuntos de datos,” García dijo.

“Qué podemos hacer en un hackathon de un día es centrarse en un problema de los datos, por ejemplo, si había un brote -- donde nosotros primero enviaríamos el apoyo y estuches a las comunidades locales y dirigiríamos programas de la percatación sobre la prevención quitando el agua estancada o usando los repelente que son efectivos contra aedes,” García dijo. “El Zika Hackathon está sobre traer la percatación y la construcción de una plataforma que sea repetible, no apenas para el análisis de datos del virus de Zika. Alguien puede tomar básicamente lo que hicimos aquí hoy y lo aplica a un cierto otro brote desconocido o a un cierto otro análisis para algo incluso mejor que qué estamos haciendo hoy. Está realmente sobre la reunión de gente, excitado, traer la percatación, y crear una plataforma que sea repetible para que otras colaboren, apliquen el aprendizaje de máquina y realicen analytics usando Apache Hadoop.”

“Es apenas grande ver a un cuarto lleno de gente que zumba, hablando trayendo estas habilidades para soportar o construir un conjunto de datos consolidado, una poca visualización, o aún una pequeña herramienta,” dijo a Jon Loyens, principal oficial y cofundador de Data.World, un nuevo lanzamiento del producto de Austin. “Cada pequeña broca ayuda y todo el mundo aquí realiza eso.”

El Zika Hackathon reunió una clase emergente de científico, científico de los datos. Los científicos de los datos se especializan en traducir la información de muchas diferentes fuentes en los datos que pueden ser utilizados juntos y al usar las nuevas tecnologías por las cuales el conocimiento se puede extraer de colecciones de datos masivas de hoy.

El científico Juliet Hougland de los datos de Cloudera describió cuáles es eso: “Hay tres clases del trabajo que consiguen puestas bajo el paraguas de ciencia de los datos. Limpieza de los datos -- consiguiendo datos en el formato correcto, en el lugar correcto -- es una parte enorme de cualquier trabajo adonde usted va a hacer algo útil con ése los datos. El analytics investigador observa datos históricos y hacer análisis interesante, útil en él. El analytics operativo soporta los motores de la recomendación, los sistemas de detección del fraude, y más.”

Los piratas informáticos de Zika formaron a grupos y trabajaron en crear los proyectos de la versión parcial de programa basados lejos de la CDC de la muestra y de otros datos disponibles en este eslabón. Un proyecto desarrolló un modelo de flujo de trabajo del tensor que utilizó el aprendizaje de máquina explorar con las imágenes antenas para los centros comunes del agua estancada, caldo de cultivo potencial para los mosquitos que llevan Zika. Otras personas desarrollaron un app movible con node.js que permitiría que los investigadores denunciaran casos que se convierten de la enfermedad transmitida por mosquitos. Uno demostró una manera de correlacionar acontecimientos de la microcefalia en el Brasil usando mapas de un R interconecta a la hoja suelta. Otros hicieron progreso en alistar datos de la CDC de Puerto Rico a la capa con los datos del libro del hecho de la Cia para una comprensión más rica de cómo ha progresado Zika allí.

La albañilería de David del analista de programas informáticos del grupo que calculaba intensivo de los datos de TACC habló de su investigación actual que extraía datos ricos de la “literatura gris,” los archivos oficiosos que pueden ser imágenes dentro de archivos del pdf, una perdición de los científicos de los datos. Su trabajo utiliza técnicas de tramitación de lenguaje natural para correlacionar acontecimientos en la literatura gris de una especie dada tal como pescados en las situaciones y las fechas específicas. El progreso en cuanto a este problema traduciría bien a conseguir más información para los investigadores sobre Zika.

“Si usted puede ver donde están todas las fuentes de agua y entonces cubrir cómo están suceso los partes de brotes, después usted puede crear un modelo para cómo se está extendiendo y cómo se extenderá en el futuro basado en donde están las fuentes de agua. Entonces usted puede subir quizá con algunos planes para compensar que el extenderse no suceso tan como rápido ni suceso en absoluto, a” Ari Kahn dijo.

La arma caritativa de la compañía del analytics de los datos, de los cuidados de Cloudera, junto con TACC y otros socios locales está proyectando llevar a cabo hackathons trimestrales como parte de un proyecto previsto más grande para utilizar datos grandes para luchar Zika y otras amenazas. Los objetivos del proyecto para hacerla más fácil para que investigadores consigan respuestas e incluso ayuden a evitar que los brotes suceso.

Source:

University of Texas at Austin, Texas Advanced Computing Center