Aucun titre de diapositive

Aucun titre de diapositive

Uso del GRID en generacin masiva de Datos: Sistema de produccin del Experimento ATLAS Santiago Gonzlez de la Hoz [email protected] CERN (European Organization for Nuclear Research) Sistema de produccin del experimento ATLAS Introduccin Objetivo de esta charla Experimento ATLAS Programa Data Challenges (DC) Sistema de Produccin de ATLAS Base de datos de produccin Supervisor: Windmill Ejecutores: Lexor, Capone y Dulcinea Data Management: Don Quijote Fases de produccin de los DC2 Los 3 sabores Grid (LCG, GRID3 y NorduGrid) Produccin de ATLAS en los DC2 Anlisis de datos utilizando el sistema de produccin Conclusiones Santiago Gonzlez de la Hoz 2/34 Sistema de produccin del experimento ATLAS Introduccin Objetivo de esta charla Experimento ATLAS

Programa Data Challenges (DC) Santiago Gonzlez de la Hoz 3/34 Sistema de produccin del experimento ATLAS Objetivo de esta charla/curso Problema real con el que se encuentra un experimento, experimento en este caso ATLAS. Posible solucin a dicho problema, el GRID Uso del Grid para la resolucin de dicho problema Experimento ATLAS Uno de los 4 experimentos que se estn construyendo en el CERN Dos de carcter general (ATLAS y CMS) Uno para la fsica del b (LHCb) Uno para el estudio de iones pesados (ALICE) Se colocar en el tnel del futuro colisionador de hadrones LHC Colisionador protn-protn Energa en centro de Masas de 14 TeV Alta luminosidad (1034 cm-2 s-1) Santiago Gonzlez de la Hoz 4/34 Sistema de produccin del experimento ATLAS Mont Blanc, 4810 m Geneva Santiago Gonzlez de la Hoz

5/34 Sistema de produccin del experimento ATLAS Santiago Gonzlez de la Hoz 6/34 Sistema de produccin del experimento ATLAS Toma de datos empieza en 2007 Level 3 Trigger: 100 sucesos/s, siendo el tamao de 1 MB/suceso Volumen de datos 1 PB/ao durante 10 aos CPU estimada para procesar datos en el LHC: 200.000 PCs actuales Esto genera 3 problemas: Almacenamiento de datos Procesado Usuarios dispersos por todo el mundo Posible solucin TECNOLOGAS GRID Santiago Gonzlez de la Hoz 7/34 Sistema de produccin del experimento ATLAS Programa Data Challenges (DC) La colaboracin ATLAS en el ao 2002 diseo el programa Data Challenges (DC) con el objetivo de validar su:

Modelo de Computacin Software Modelo de datos Empezar a usar y probar las tecnologas GRID Con los DC1 se consigui (no se utiliz el GRID): Desarrollar y desplegar el software necesario para la produccin de sucesos a gran escala. Participaron en la produccin institutos de todo el mundo. Con los DC2 se ha conseguido producir sucesos a gran escala utilizando el middleware GRID desarrollado en tres proyectos (sabores de Grid) : LHC Computing Grid project (LCG), en el cual participa el CERN y el IFIC GRID3 NorduGRID Santiago Gonzlez de la Hoz 8/34 Sistema de produccin del experimento ATLAS Sistema de produccin de ATLAS (ver charla Julio Lozano) Base de datos de produccin Supervisor: Windmill Ejecutores: Lexor, Capone y Dulcinea Data Management: Don Quijote Santiago Gonzlez de la Hoz 9/34 Sistema de produccin del experimento ATLAS

Atlas diseo un sistema de produccin automtico para poder llevar a cabo su produccin masiva de datos en los DC2. El sistema de produccin de ATLAS consiste en 4 componentes: La base de datos de produccin, la cual contiene la definicin de los trabajos. El supervisor windmill, el cual consulta la base de datos para obtener la definicin de los trabajos y se los pasa a los ejecutores de cada Grid en formato XML. Los ejecutores, hay uno por cada sabor Grid. Ellos reciben la definicin del trabajo en formato XML y la convierten en el job description language (JDL) de cada sabor Grid. Don Quijote, Atlas Data Management system, el cual se encarga de: Transferir ficheros desde su localizacin temporal hasta su destino final en un Storage Element (SE) Registrar los en el catlogo correspondiente a cada Grid (replica

location service). Santiago Gonzlez de la Hoz 10/34 Sistema de produccin del experimento ATLAS Definicin de trabajos en la base de datos Prodcom: Es una herramienta interactiva grfica que nos permite fcilmente definir una gran cantidad de trabajos en la base de datos Esta hecho en Java y se puede correr como un applet En la definicin del trabajo elegimos: Nuestra transformacin* Los ficheros de entrada (ponemos su LFN, logical file name) Los ficheros de salida (LFN) Donde queremos que se guarden los ficheros de salida (SE) *Transformacin: Es un shell script que espera una serie de parmetros de entrada y ejecuta athena.py, otro programa para la generacin, simulacin, etc.. de sucesos en ATLAS. Santiago Gonzlez de la Hoz 11/34 Sistema de produccin del experimento ATLAS

Definicin de trabajos en la base de datos Los trabajos se crean en la base de datos y se les asigna automticamente un ID Tambin se monitoriza su estado. Santiago Gonzlez de la Hoz 12/34 Sistema de produccin del experimento ATLAS Declaracin de una transformaci n en la base de datos: phpORADmin: interfaz web de ATLAS con la base de datos. La transformacin se declara Se definen los parmetros de entrada que necesita dicha

transformacin Santiago Gonzlez de la Hoz 13/34 Sistema de produccin del experimento ATLAS Supervisor: Windmill Es una implementacin del software supervisor para la gestin de la produccin de ATLAS. Consulta la base de datos para obtener la definicin de los trabajos. Interacciona con varios ejecutores para la distribuccin, ejecucin y monitorizacin de los trabajos en los diferentes Grids (a travs de XML, utilizando un jabber server, ) Configuracin: Windmill Se configura modificando el fichero windmill.xml Jobselection: LCGANALYSIS. Para coger los trabajos en la base de datos con inputhint LCGANALYSIS Database: atlas_prodsys_dev/[email protected] b. Elegimos la base de datos Santiago Gonzlez de la Hoz

14/34 Sistema de produccin del experimento ATLAS Ejecutores: Lexor, Dulcina y Capone Por diseo son una interfaz entre el supervisor (que es nico) y los tres sabores Grid. La informacin que reciben del supervisor en XML, la convierten en el JDL (Job Description Language) de que sabor Grid Envan los trabajos a los correspondientes Computing Elements asociados con dicho sabor de Grid. Configuracin: Lexor (LCG) Se configura modificando el fichero lexor.cfg Eleccin de Resource Broker y BDII Puedes habilitar o deshabilitar centros El fichero lexor_wrap.sh: Baja, instala y ejecuta la transformacin Hace el stage in de los ficheros necesarios de entrada (utilizando Don Quijote, DQ) Hace el stage out de los ficheros de salida (DQ) Santiago Gonzlez de la Hoz

15/34 Sistema de produccin del experimento ATLAS Data Management System: Don Quijote (DQ) El objetivo de DQ es integrar todos los servicios de gestin de datos (data managment) usados por los tres Grids y por lo tanto por el Experimento ATLAS. De esta forma los datos se pueden replicar y registrar de forma transparente entre los diferentes catlogos de los tres sabores grids. Realmente hay tres servidores DQ, uno para cada Grid, pero para el usuario final, esto es totalmente transparente. Como si solo hubiera uno Utilizacin Don Quijote: Corres el script eligiendo el tipo de Grid y el LFN para dicho fichero: dms2.py g lcg get rome.004100.recov10.T1_McAtNLO_top._0021 1.AOD.pool.root Santiago Gonzlez de la Hoz 16/34 Sistema de produccin del experimento ATLAS

Fase de produccin de los DC2 Los 3 sabores Grid (LCG, GRID3 y NorduGrid) Produccin de ATLAS en los DC2 Santiago Gonzlez de la Hoz 17/34 Sistema de produccin del experimento ATLAS Pythia Fases de produccin de los DC2 Events HepMC Geant4 Events HepMC Events HepMC Bytestream Raw Digits Hits MCTruth Digitization Geant4

Hits MCTruth Digitization Digits (RDO) MCTruth Geant4 Hits MCTruth Pile-up Digits (RDO) MCTruth Bytestream Raw Digits Mixing Digits (RDO) MCTruth Events HepMC ~5 TB Event generation

Physics events Hits MCTruth Pile-up 20 TB Detector Simulation Min. bias Events ESD Bytestream Raw Digits Reconstruction Digits (RDO) MCTruth Digitization (Pile-up) Piled-up events Bytestream Raw Digits

Reconstruction ESD Bytestream Raw Digits 20 TB 30 TB Mixed events ESD Bytestream Raw Digits Mixing Geant4 Reconstruction Byte stream Mixed events With Pile-up Santiago Event Mixing

Volume of data for 107 eventsde Gonzlez 5 TB Reconstruction Persistency: TB Athena-POOL la Hoz 18/34 Sistema de produccin del experimento ATLAS Process No. of events Event/ size CPU power Volume of data MB kSI2k-s TB Event generation

107 0.06 156 Simulation 107 1.9 504 30 Pile-up/ Digitization 107 3.3/1.9 ~144/16 ~35 Event mixing & 107 2.0 ~5.4 ~20 Byte-stream Los DC2 de ATLAS empezaron la fase de simulacin en Julio 2004 y acab en Septiembre del mismo ao. Se generaron 10 millones de sucesos distribuidos en 100000 trabajos

La digitalizacin y el Pile-up acabaron en Diciembre 2004 y corri sobre una muestra de 2 millones Se utilizaron las tecnologas Grid (3 proyectos)!!!!! Santiago Gonzlez de la Hoz 19/34 Sistema de produccin del experimento ATLAS Los tres sabores Grid LCG (http://lcg.web.cern.ch/LCG/) The job of the LHC Computing Grid Project LCG is to prepare the computing infrastructure for the simulation, processing and analysis of LHC data for all four of the LHC collaborations. This includes both the common infrastructure of libraries, tools and frameworks required to support the physics application software, and the development and deployment of the computing services needed to store and process the data, providing batch and interactive facilities for the worldwide community of physicists involved in LHC. NorduGrid (http://www.nordugrid.org/) The aim of the NorduGrid collaboration is to deliver a robust, scalable, portable and fully featured solution for a global computational and data Grid system. system NorduGrid develops and deploys a set of tools and services the so-called ARC middleware, which is a free software. Grid3 (http://www.ivdgl.org/grid2003/) The Grid3 collaboration has deployed an international Data Grid with dozens of sites and thousands of processors. The facility is operated jointly by the U.S. Grid projects iVDGL, GriPhyN and PPDG, and the U.S. participants in the LHC experiments ATLAS and CMS. Los tres proyectos utilizan Globus. Solamente existen pequeas diferencias en el middleware Santiago Gonzlez de la Hoz 20/34 Sistema de produccin del experimento ATLAS NORDUGRID

ARC is based on Globus Toolkit with core services replaced Currently uses Globus Toolkit 2 Alternative/extended Grid services: Grid Manager that Checks user credentials and authorization Handles jobs locally on clusters (interfaces to LRMS) Does stage-in and stageout of files Lightweight User Interface with built-in resource broker Information System based on MDS with a NorduGrid schema xRSL job description language (extended Globus RSL) Grid Monitor Simple, stable and noninvasive LCG LCG-2 core packages: VDT (Globus2, condor) EDG WP1 (Resource Broker,

job submission tools) EDG WP2 (Replica Management tools) + lcg tools One central RMC and LRC for each VO, located at CERN, ORACLE backend Several bits from other WPs (Config objects, InfoProviders, Packaging) GLUE 1.1 (Information schema) + few essential LCG extensions MDS based Information System with significant LCG enhancements (replacements, simplified) Mechanism for application (experiment) software distribution GRID3 Grid environment built from core Globus and Condor middleware, as delivered through the Virtual Data Toolkit (VDT) GRAM, GridFTP, MDS, RLS, VDS equipped with VO

and multi-VO security, monitoring, and operations services allowing federation with other Grids where possible, eg. CERN LHC Computing Grid (LCG) USATLAS: GriPhyN VDS execution on LCG sites USCMS: storage element interoperability (SRM/dCache) Santiago Gonzlez de la Hoz 21/34 Sistema de produccin del experimento ATLAS 100 centros, 22 paises (Estos nmeros aumentan rpidamente) 6558 TB ~10000 CPUs (compartidas) LCG Esta infraestructura lleva trabajando desde el 2003. Los recursos (tanto de computacin como de almacenamiento) estn instalados en RC (Regional

Centers) conectados por redes de alta velocidad. Santiago Gonzlez de la Hoz 22/34 Sistema de produccin del experimento ATLAS NorduGrid Es una colaboracin de investigacin formada principalmente por los pases nrdicos, aunque hay otros pases. Fueron los nicos que contribuyeron a los DC1 utilizando el Grid. Son los nicos que soportan diferentes distribuciones a RedHat. 11 paises, 40+ centros, ~4000 CPUs, ~30 TB almacenamiento Santiago Gonzlez de la Hoz 23/34 Sistema de produccin del experimento ATLAS Sep 04 30 centros, multi-VO Recursos compartidos

~3000 CPUs GRID3 Dicha infraestructura lleva trabajando desde Nov 2003. Actualmente corriendo 3 aplicaciones de Fsica de Altas Energas y 2 de Biologa. Mas de 100 usuarios corriendo en Grid3. Santiago Gonzlez de la Hoz 24/34 Sistema de produccin del experimento ATLAS Produccin de ATLAS en los DC2 # Validated Jobs 140000 120000 Simulacin G4 total Number of jobs 100000 80000 LCG NorduGrid Grid3 Total 60000 40000

20000 0 3 9 2 5 8 1 4 0 6 9 4 2 8 6 7 3 1 7 0 3 6 9 2 5 8 1 3 6 9 5 6 2 06 2 06 2 0 70 07 0 07 0 07 1 0 71 07 1 0 72 07 2 0 72 0 72 08 0 0 80 08 0 08 1 08 1 08 1 08 1 08 2 08 2 08 2 08 3 09 0 09 0 09 0 09 1 09 1 09 1 0 4 4 4

4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 -20000 Day Days Santiago Gonzlez de la Hoz 25/34

Sistema de produccin del experimento ATLAS Produccin de ATLAS en los DC2 ATLAS DC2 - CPU usage 1%LCG 2% 0% 1% 1% 1% 11% 1% 29% 4% 1% 21% 0% 0% 41% LCG NorduGrid Grid3 13% 2% 1% 1%

1% 3% 0% 10% 2% 30% 2% Grid3 4% 4% 1% 0% 1% 2% 0% 3% 1% 13% 13% 4% 6% 4%

1% 1% 6% 10% BNL_ATLAS BNL_ATLAS_BAK BU_ATLAS_Tier2 CalTech_PG FNAL_CMS IU_ATLAS_Tier2 PDSF Rice_Grid3 SMU_Physics_Cluster UBuffalo_CCR UCSanDiego_PG UC_ATLAS_Tier2 UFlorida_PG UM_ATLAS UNM_HPC UTA_dpcc UWMadison 2% 2% 2% 12% 4% 0% 5%

17% 8% NorduGrid 1% 4% 0% at.uibk ca.triumf ca.ualberta ca.umontreal ca.utoronto ch.cern cz.golias cz.skurut de.fzk es.ifae es.ific es.uam fr.in2p3 it.infn.cnaf it.infn.lnf it.infn.lnl it.infn.mi it.infn.na it.infn.roma it.infn.to nl.nikhef pl.zeus tw.sinica uk.bham uk.ic uk.lancs uk.man

uk.ral uk.shef uk.ucl 2% 2% 2% 2% 3% 3% 50% 3% 3% 8% SWEGRID brenta.ijs.si benedict.aau.dk hypatia.uio.no farm.hep.lu.se fire.ii.uib.no fe10.dcsc.sdu.dk lxsrv9.lrz-muenchen.de atlas.hpc.unimelb.edu.au grid.uio.no lheppc10.unibe.ch morpheus.dcgc.dk genghis.hpc.unimelb.edu.au charm.hpc.unimelb.edu.au lscf.nbi.dk atlas.fzk.de grid.fi.uib.no 12%

Santiago Gonzlez de la Hoz 26/34 Sistema de produccin del experimento ATLAS Anlisis de datos utilizando el sistema de produccin Santiago Gonzlez de la Hoz 27/34 Sistema de produccin del experimento ATLAS Definimos una transformacin de Anlisis Se definen los parmetros: ..... name of input file (full path) .... HIST output filename" .... NTUPLE output filename" ........... number of output events to be processed" ........... number of input events to be skipped" Implementamos nuestro algoritmo de anlisis (Usamos en este caso ttbar) get_files -jo ttbarExample_jobOptions.py Se genera el fichero de configuracin para correr Athena cat >> input.py << EOF EventSelector.InputCollections=file_list theApp.EvtMax = $NEVT theApp.SkipEvents = $SKIP HistogramPersistencySvc.OutputFile = "$HISTFN"; NTupleSvc.Output = [ "FILE1 DATAFILE='$NTUPFN' OPT='NEW'" ] EOF Corremos Athena con las opciones de nuestro trabajo time athena.py ttbarExample_jobOptions.py input.py >& logANA

Santiago Gonzlez de la Hoz 28/34 Sistema de produccin del experimento ATLAS Declaramos la transformacin en la base de datos: usando phpORAdmin. Definimos los trabajos en la base de datos asociados a dicha transformacin: con prodcom Instalamos una instancia de Windmill y Lexor configurados para que ejecuten nuestros trabajos: Se instal en el UI (lcg2ui2.ific.uv.es), y se utiliz el Resource Broker (lcg2rb2.ific.uv.es) y BDII del IFIC-Valencia. Modificamos el wrapper (Lexor_wrapper.sh) de Lexor para que pudiera coger nuestra transformacin: wget http://ific.uv.es/~sgonzale/kitvalidation/packages/10.0.0.1/JobTransfor ms-10-00-00-01.tar.gz tar xvzf JobTransforms-10-00-00-01.tar.gz Santiago Gonzlez de la Hoz 29/34 Sistema de produccin del experimento ATLAS Se utiliz el siguiente dataset: rome.004100.recov10.T1_McAtNLO_top Muestra ttbar 50 sucesos por fichero, un total de 7000 ficheros Se definieron 70 trabajos con 100 ficheros de entrada en la base de datos utilizando prodcom: e.g. Rome.004100.recov10.T1_McAtNLO_top._[00001-00100].AOD.pool.root

Se enviaron y ejecutaron estos trabajos utilizando nuestra instancia de Lexor+windmill Los trabajos corrieron en diferentes institutos LCG (ific.uv.es, gridpp.rl.ac.uk, farmnet.nikhef.nl, etc..) Cada trabajo produjo 3 ficheros de salida, los cuales fueron almacenados en Castor (IFIC-Valencia, Taiwan, CERN), por ejemplo: rome.analysis.large.23.hist.root rome.analysis.large.23.ntup.root rome.analysis.large.23.log Los 70 histogramas fueron concatenados en uno: Utilizamos para ello la macro de root: $ROOTSYS/bin/hadd Los histogramas fueron abiertos con RFIO (almacenados en Castor) Santiago Gonzlez de la Hoz 30/34 Sistema de produccin del experimento ATLAS Reconstruccin de la masa invariante del W desintegrndose a jet-jet (W->jj): A la izquierda uno de los 70 histogramas producidos a travs del sistema de produccin de ATLAS a la Grid A la derecha una vez hecho el encadenamiento de los 70 histogramas Hemos analizado 350000 sucesos!!! sucesos Santiago Gonzlez de la Hoz 31/34

Sistema de produccin del experimento ATLAS El trabajo solo dura 4 minutos en el Worker Node, pero tarda en total 4 Horas: Se pierde mucho tiempo copiando los ficheros de entrada al Worker Node (la red y las cintas en el caso de Castor) donde realmente el trabajo corre, copiando los ficheros de salida al Storage Element seleccionado y enviando el trabajo al Computing Element elegido por el Resource Broker. Parece lgico en este caso (Anlisis) mandar el trabajo all donde estn los datos de entrada. Santiago Gonzlez de la Hoz 32/34 Sistema de produccin del experimento ATLAS Conclusiones Santiago Gonzlez de la Hoz 33/34 Sistema de produccin del experimento ATLAS ATLAS ha sido el primer experimento LHC que ha utilizado las tecnologas GRID para llevar a cabo una produccin masiva de datos simulados a la totalidad del ejercicio. Se han utilizado 3 sabores de GRID. La produccin ha sido llevada acabo de una forma coherente y automtica. Los Data Challenges 2 nos han enseado que todos los elementos involucrados en el sistema de produccin de ATLAS necesitan mejoras En tres meses (Julio a Septiembre 2004), se enviaron mas de 235000 trabajos, se consumi mas de 1.5Millones specint2000/mes de CPU y se produjeron ms de 30 TB de datos.

El modelo de anlisis propuesto por ATLAS se prob con xito en el sistema de produccin. En menos de 4 horas 350000 sucesos fueron analizados. Dichos sucesos estaban almacenados en diferentes lugares por todo el mundo y los trabajos de anlisis se ejecutaron en un gran abanico de centros. Santiago Gonzlez de la Hoz 34/34

Recently Viewed Presentations

  • Section 1: Light and Quantized Energy - North Allegheny

    Section 1: Light and Quantized Energy - North Allegheny

    Section 1: Light and Quantized Energy ... (1858-1947) began searching for an explanation by studying the light emitted by heated objects. The Particle Nature of Light. ... The atomic emission spectrum of an element is the set of frequencies of...
  • Comparison and Contrast Writing

    Comparison and Contrast Writing

    Establishing a basis for comparison The two things to be compared must have enough in common to justify the comparison. In making comparisons, you should move beyond the obvious (i.e., people and bees) When two things are very similar, it...
  • Math SL Year 2

    Math SL Year 2

    The IA is an exploration of mathematics in an area or topic of your choosing. ... Asking questions, making conjectures, and investigating math ideas. Looking for and creating math models for real world situations.
  • Chapter 3: The Creation of the World - MTF

    Chapter 3: The Creation of the World - MTF

    Chapter 3: The Creation of the World. ... The second group rules over the first: sun and moon rule over day and night, birds and fish rule over sky and sea, and animals and humans rule over the land. ......
  • Chronicle of a Blood Merchant: Themes and Quotes

    Chronicle of a Blood Merchant: Themes and Quotes

    Blood is seen as the Mother of Qi- with blood/qi nourishing the body. TCM says that you shouldn't donate more than 200-400ml of blood every 2 years (in the West you can give blood every 8 weeks).
  • peacechem.weebly.com

    peacechem.weebly.com

    VSEPR. The electron pairs try to get as far away as possible to minimize repulsion. VSEPR is based on the number of pairs of valence electrons, both bonded and non-bonded. An non-bonded pair of electrons is referred to as a...
  • Big Picture of Big Data Software Engineering: With Example ...

    Big Picture of Big Data Software Engineering: With Example ...

    BDSE model expected to help in two ways: Organizational structuring with appropriate agent roles, processes, and relationships. In precipitating research in targeted areas of the Big Data environment. This paper focuses more on the latter due to it being a...
  • Robust Rate Adaptation in 802.11 networks Starsky H.Y.

    Robust Rate Adaptation in 802.11 networks Starsky H.Y.

    * RRAA Design Short-term statistics to handle random loss mobility Adaptive RTS to handle collision * Short-term Statistics based Rate Adaptation Short-term statistics: Loss ratio over estimation window (20~100ms) Channel coherence time Exploit short-term opportunistic gain Threshold-based rate change: if...