Índex
Bioinformatics and Big data
• Agulló, P. (*) – Aplicacions d’analytics a la presa de decisions en marketing i logística
• Arnau, T. (*) – Análisis de sentimiento en las noticias: Comparativa de diferentes estrategias de modelización y escenarios lingüísticos
• Baena, S. (*) – Estimación y predicción de la velocidad del viento mediante funciones ortogonales empíricas y modelos de volatilidad estacional (SGARCH)
• González, JR. (*) – Análisis bioinformático de datos ‘omicos’ en estudios de epidemiología genética
• Sánchez-Pla, A. (*), et al. – Gestió de la informació (i bastant més) a la Unitat d’Estadística i Bioinformàtica de l’Institut de Recerca de Vall d’Hebrón amb el sistema Wiki-Tiki
Biostatistics and Clinical Trials
• Barrera, J. (*), Basagaña, X. – Interpretation of Linear, logistic and Poisson regression models with transformed variables and its implementation in the R package tlm
• Conesa, D. (*), et al. – Bayesian spatio-temporal analysis in the fishery context
• Cuadras, D. (*) – Assessorament Metodològic i Estadístic a la Fundació Sant Joan de Déu
• Falqués, M. (*) – El rol del estadístico en la Industria Farmacéutica
• Flo, E. (*) – Linear model: an approach to the successful intercalibration of data in the Water Framework Directive
• Muñoz, P. (*), et al. – The impact of immigration and vaccination in reducing the incidence of hepatitis B in Catalonia (Spain)
• Núñez, X. (*) – Statisticians Statistically Significant
• Pérez-Álvarez, S. (*) – La vida professional d’una jove bioestadística
• Pérez-Hoyos, S. (*), et al. – Imputació de dades en l’avaluació de formació en línia en cures pal·liatives en Metges d’atenció Primaria
• Quintó, L. (*), et al. – Generació de resultats en format HTML amb Stata
• Ríos, J. (*), et al. – Parlar estadística a la recerca clínica
• Tous, S. (*), et al. – L’Estadística aplicada al programa de recerca en epidemiologia del càncer de l’Insitut Català d’Oncologia
• Valls, J. (*), Clèries, R. – Optimal number of years to make a prediction for mortality or incidence rates
Business Analytics and other applications
• Aguilera, J. (*) – Ver, o no ver, esa es la cuestión ¿Conoces lo que dicen tus datos? Con SAS Visual Analytics puedes!
• Alcaide, D. (*) – Consejos para mejorar la eficiencia de los programas SAS
• Amores, M. (*), et al. – Creation of a Graphical User Interface with R: application to a dairy farm model
• Badiella, Ll. (*) – Effect size Confidence Intervals for Pr(X < Y ) with censored data
• Fernández, M. (*), Vidal, P. – Estadística aplicada en la recerca del Tercer Sector
• Lustres-Pérez, V. (*), et al. – Spin offs de bioestadística. Un modelo de negocio alternativo a través de la experiencia de Biostatech.
• Perpiñán, H. (*), et al. – Ventajas del enfoque Bayesiano en Salud Pública
• Udina, F. (*) – El paper de l’estadística pública en la revolució de les dades del segle XXI
• Vázquez, A. (*), et al. – OmyStat – Una aplicación web para el análisis de datos guiado
(*) Conferenciant
___________________________________________________________________________________________________
___________________________________________________________________________________________________
Bioinformatics and Big data
Aplicacions d’analytics a la presa de decisions en marketing i logística
Agulló, P. (*)
Director general de Kernel Analytics
La digitalització de processos de negoci a tots els sectors, amb el desenvolupament d’eines de hardware i software de tractament de dades, ha impulsat el creixement de la pràctica d’analytics aplicat a l’automatització i optimització de la presa de decisions basada en l’ús de models predictius.
A la sessió es revisaran diversos exemples d’aplicacions de models predictius a la presa de decisions en marketing com ara la recomanació personalitzada de productes o la predicció de comportaments de clients (cancel·lacions de serveis, etc.).
També s’exposaran exemples de logística com són la predicció de demanda de productes per punt de venda i dia, o bé la redistribució de stocks entre botigues.
Finalment, es compartiran algunes reflexions sobre l’evolució del mercat dels serveis analítics i l’ecosistema d’empreses analítiques a Barcelona.
Kernel Analytics és una consultora especialitzada en l’aplicació de tècniques quantitatives avançades al món del marketing, sobretot intel·ligència de clients, i de la logística.
Pau Agulló és el co-fundador i director general de Kernel Analytics. És llicenciat en Economia per la UPF, màster en Economia a la European University Institute de Florència i amb més de 12 anys d’experiència en consultoria analítica, on ha ocupat diversos càrrecs a AIS, Neo Metrics o Accenture Analytics.
Análisis de sentimiento en las noticias: Comparativa de diferentes estrategias de modelización y escenarios lingüísticos
Arnau, T. (*)
My News, S.L.
El objetivo del presente trabajo es desarrollar una metodología que califique automáticamente de forma positiva o negativa noticias de prensa sobre una marca o tema en concreto.
Se dispone de una muestra de 450 noticias que hablan sobre un tema en concreto. Estas noticias han sido previamente valoradas (como positivas o negativas) por un experto.
Los textos han sido procesados aplicando herramientas de minería de textos, procesamiento del lenguaje natural y de análisis de sentimiento para extraer la información subjetiva y poder emplear esta información dentro de modelos predictores de la polaridad de las noticias. Esta información extraída corresponde esencialmente a la presencia o ausencia de determinadas palabras con valor sentimental.
En este sentido, se han definido diferentes escenarios según las particularidades de la selección de variables predictoras (incluyendo las palabras más relevantes, las más frecuentes o utilizando una lista externa de palabras sentimentales).
Por otra parte, una vez definidos estos escenarios se han aplicado diferentes métodos de modelización. Se han considerado modelos lineales, árboles de clasificación y clasificadores Naive Bayes.
Los resultados obtenidos indican que el clasificador Naive Bayes junto con el modelo lineal son las familias de modelos que proporcionan mayor capacidad predictiva.
Finalmente, dado que la metodología presentada alcanza resultados aceptables pero con posibilidades de mejoría, sería interesante por un lado considerar otras familias de modelos predictivos y por otro profundizar en la extracción de información de los textos iniciales para lograr un mejor ajuste.
Estimación y predicción de la velocidad del viento mediante funciones ortogonales empíricas y modelos de volatilidad estacional (SGARCH)
Baena, S. (*)
Direcció de Control del Risc, Banc Sabadell
El objetivo de este trabajo es la implementación, estimación y predicción de modelos espacio-temporales para la velocidad del viento en la zona del Estrecho del Gibraltar a partir de un análisis in-sample y out-of-sample. Los datos utilizados provienen del modelo de predicción numérica (HIRLAM) y contienen información de la velocidad del viento, entre otras variables climatológicas. El conjunto de datos abarca desde Enero de 2009 hasta Diciembre de 2010. En primer lugar, se ha llevado a cabo una reducción de la dimensión de los datos a partir del cálculo de las funciones ortogonales empíricas (EOF), que ha permitido separar la componente temporal y espacial existentes en los mismos. En segundo lugar, se ha analizado el patrón temporal observándose las siguientes características: componente autorregresivo estacional en la media condicionada, colas pesadas y fuerte volatilidad de carácter estacional. Se ha desarrollado el modelo teórico de volatilidad estacional multiplicativo (SARMA-SGARCH) con distribución del error Gaussiana o T-student, e implementado en R un conjunto de funciones que lo estiman y simulan. Se han obtenido mejores resultados, para el conjunto de datos analizados, utilizando esta última distribución. A partir de dichos modelos, se han calculado las predicciones temporales en un horizonte fijado y finalmente, se han utilizado las componentes espaciales para obtener dicha predicción en cada uno de los puntos espaciales del área geográfica de estudio.
Análisis bioinformático de datos ‘omicos’ en estudios de epidemiología genética
González, JR. (*)
Bioinformatics Research Group in Epidemiology (BRGE)
Centre for Research in Environmental Epidemiology (CREAL)
Department of Mathematics, Universitat Autònoma de Barcelona (UAB)
Durante esta última década se ha producido un enorme avance en la generación de diferentes tipos de datos ‘omicos’. Esta información incluye no sólo datos sobre cambios o variaciones a nivel del genoma humano (genómica), si no otros sobre desregulación de la expresión de un gen (transcriptómica), variaciones a nivel de las proteinas (proteómica) o cambios en la expresión génica que no cambian la secuencia del ADN (epigenómica). El principal objetivo que se pretende al incorporar este tipo de datos en los estudios epidemiológicos que se están llevando a cabo actualmente, es poder determinar qué perfiles genéticos determinan mayor o menor suceptibilidad a desarrollar enfermedades, responder a un tratamiento o mejorar el pronóstico en pacientes diagnosticados de cáncer, obesidad o asma entre otras. Todo ello con el fin de poder llevar a cabo algo tan deseado y complejo como es la medicina personalizada.
El análisis masivo de este tipo de datos supone un gran reto, no sólo a nivel computacional si no también desde un punto de vista estadístico y/o matemático. Estas complicaciones aparecen en el mismo momento en el que se generan los datos por las diferentes plataformas existentes, ya que el almacenamiento y el pre-proceso para su posterior tratamiento estadístico suele ser un problema complejo para ciertos grupos de investigación. Dada la cantidad enorme de información que se suele tratar, la parte de visualización de resultados es fundamental para ilustrar de forma clara las conclusiones que se han obtenido del estudio y es también un área de investigación en continua evolución.
En esta charla, haremos una breve introducción al tipo de datos que se obtiene en estudios de epidemiología genética y presentaremos los métodos y modelos estadísticos se utilizan para analizar y visualizar este tipo de datos, así como las herramientas bioinformáticas existentes que implementan dichos métodos. Algunas de ellos han sido desarrolladas por nuestro grupo (Grupo de Investigación Bioinformática en Epidemiología; BRGE por sus siglas en inglés, http://www.creal.cat/jrgonzalez/software.htm) que colabora con varios centros de investigación en epidemiología que incorporan una gran cantidad de información ‘omica’ en sus estudios. El uso de estas herramientas conlleva las mismas limitaciones que aparecen en cualquier otro problema que trate con “Big Data”. Es por ello, que también presentaremos las soluciones que se han aportado hasta el momento para solventar las limitaciones computacionales que puedan aparecer. Los ejemplos de análisis y los datos que se presentarán ayudarán a entender el uso y manejo de algunas librerías que están accesibles en Bioconductor, un proyecto dedicado exclusivamente a la implementación de métodos de análisis de datos genéticos con R.
Gestió de la informació (i bastant més) a la Unitat d’Estadística i Bioinformàtica de l’Institut de Recerca de Vall d’Hebrón amb el sistema Wiki-Tiki
Sánchez-Pla, A.(1, 2) (*), de Pedro, X.(1), Brianso, F.(1)
1 Unitat d’Estadstica i Bioinformatica. Vall d’Hebron Institut de Recerca.
2 Department d’Estadstica. Universitat de Barcelona.
El funcionament d’una unitat de consultoria com la Unitat d’Estadística i Bioinformàtica del VHIR consisteix essencialment en la realització d’un seguit de tasques diverses de suport, des de breus interaccions amb usuaris a llargs estudis on intervenen varis tècnics. Ara bé, la gestió de la informació associada a les activitats de la unitat no consisteix únicament en la realització dels estudis fent servir les eines estadístiques i bioinformàtiques adients. S’ha de disposar de documentació de tota mena, calen bases de dades on desar la informació dels estudis, serveis projectes o clients; probablement es necessitin sistemes uni (enquestes) o bidireccionals (foros) de comunicació amb els usuaris, etc. Per dur a terme aquests processos de gestió de la informació es pot fer servir algún dels nombrosos sistemes de manegament de contingut (CMS) existents. En aquesta comunicació es presenta l’ús del sistema Tiki Wiki CMS/Groupware (https://tiki.org) que permet, no només gestionar la majoria dels processos habituals en una unitat de consultoria com les que es troben presents aquí, sinó que permet anar més enllà integrant eines d’anàlisi, per a tècnics i usuaris mitjançant la integració d’R amb el sistema \PluginR”. Així, permet gestionar usuaris amb diferents nivells de permisos, categoritzar el contingut, crear formularis i gestionar bases de dades web, crear bases de coneixement en sintaxi Wiki o WYSIWYG (visual), ajudar a la traducció del contingut entre diferents idiomes (amb o sense idioma únic mestre de referència), crear fòrums de debat, publicació de notícies, agenda d’esdeveniments, avisos per correu-e de novetats, i un llarg etcètera de funcionalitats interessants per a unitats de servei i suport tècnic a usuaris.
___________________________________________________________________________________________________
___________________________________________________________________________________________________
Biostatistics and Clinical Trials
Interpretation of Linear, logistic and Poisson regression models with transformed variables and its implementation in the R package tlm
Barrera, J. (*), Basagaña, X.
Centre for Research in Environmental Epidemiology (CREAL)
Variable transformation is commonly performed in linear regression models in order to ensure that certain assumptions necessary for correct data modeling hold. The transformation of variables in models is a common practice but the interpretation of the effects in the original scale of the variables is not as widespread. This talk is based in a paper under preparation, in which we show how to interpret the coefficients of regression models in the original variable scale when the response variable, the explanatory variable of interest, or both, have been transformed. We pay special attention to the log transformation but we also consider other general transformations. We also consider the transformation of a quantitative explanatory variable in the logistic and Poisson regression models. The methods presented are illustrated with examples. In addition, we provide the R package tlm which performs all the calculations required to obtain both numerical and graphical outputs in order to facilitate the application of the described procedures.
Bayesian spatio-temporal analysis in the fishery context
Conesa, D.(1) (*), López-Quílez, A.(1), Muñoz, F.(2), Pennino, M. G.(3), Bellido, J. M.(4), Illian, J. B.(5)
(1) Departament d’Estadística i I. O., Universitat de València. Spain.
(2) Institut National de la Recherche Agronomique (INRA), Orleans. France.
(3) Institut de Recherche pour le Développement (IRD), Sète cedex, France.
(4) Instituto Español de Oceanografía. Centro Oceanográco de Murcia. Spain.
(5) Centre for Research into Ecological and Environmental Modelling. St Andrews. UK.
Modelling patterns of the presence/absence of the species using local environmental factors has been a growing problem in Ecology in the last few years. This kind of modelling has been extensively used to address several issues, including identifying Essential Fish Habitats in order to classify and manage conservation areas and predicting the response of species to environmental features.
Our interest here is to propose a hierarchical Bayesian model to predict the occurrence of species by incorporating the environmental and spatio-temporal features of each location. To do so, we use the integrated nested Laplace approximations methodology jointly with the SPDE approach. Some particular examples are presented.
Moreover, our interest is also to show that our approach can be adapted to be used in situations where sampling is likely to be preferential. Preferential sampling arises when the process that determines the data locations and the process being modelled are stochastically dependent. We also present an example about the abundance of a target species (hake) in the Western Mediterranean.
Assessorament Metodològic i Estadístic a la Fundació Sant Joan de Déu
Cuadras, D. (*)
SAMER, Fundació Sant Joan de Déu
El Servei d’Assessorament Metodològic i Estadístic a la Recerca (SAMER) de la Fundació Sant Joan de Déu, s’encarrega de donar suport als professionals de l’Hospital Materno-Infantil Sant Joan de Déu d’Esplugues (HSJD), i del Parc Sanitari Sant Joan de Déu de Sant Boi de Llobregat (PSSJD), que estiguin desenvolupant un treball d’investigació o bé tinguin previst iniciar-ne un.
Aquest servei ofereix les següents tasques:
- Suport a les sol·licituds de projectes, previ a la concessió: revisió del disseny i la metodologia considerada, càlcul i justificació de la mida mostral, descripció específica d’anàlisis estadístiques.
- Realització de tasques metodològiques i d’anàlisi de dades: disseny de la base de dades, creació de la base de dades, anàlisis estadístiques, suport per la redacció d’articles, ponències a congressos, tesis doctorals o treballs de recerca.
- Impartició de cursos sobre Metodologia i Estadística, enfocats a la investigació biomèdica.
Els tipus d’anàlisis estadístiques requerides són molt variats, dintre dels habituals en els entorns d’investigació mèdica en institucions sanitàries. Si bé predomina la investigació clínica, també està augmentant la investigació de tipus bàsic (bioinformàtica, genètica, etc.). La majoria dels projectes estan relacionats amb la salut maternal, infantil i mental.
Com a exemple d’un dels tipus d’anàlisi que es realitza des del SAMER, oferim un estudi sobre la supervivència en nens que pateixen gliomes de baix grau, un dels tumors cerebrals més comuns durant la infància. L’objectiu principal consisteix en estudiar la supervivència global i la lliure de progressió segons diferents factors, per tal de poder millorar la seva prognosi.
Aquest servei està consolidat com una eina molt important dintre de l’activitat investigadora de la Fundació Sant Joan de Déu, amb una àmplia demanda per part de tots els seus investigadors.
El rol del estadístico en la Industria Farmacéutica
Falqués, M. (*)
Statistician, Almirall, S.A.
Son distintas las tareas que un estadístico tiene que desarrollar en el área de la Industria Farmacéutica: Desde cuestiones más técnicas, como puede ser proponer el mejor diseño para un Ensayo Clínico, cálculos del tamaño de muestra, tratamiento de datos faltantes, o escoger cuál es la mejor técnica para ajustar por multiplicidad, hasta cuestiones más teóricas como participar en la discusión global del Plan de Desarrollo Clínico para un nuevo fármaco. También es habitual la participación del estadístico en reuniones con las Agencias Reguladoras del Medicamento (ya sea la agencia Española, Europea o la de Estados Unidos) donde se discute y se defiende la metodología estadística propuesta en el desarrollo clínico del fármaco, así como la colaboración con otros estadísticos de otras Compañías farmacéuticas llamadas Partners (generalmente de Estados Unidos, China, Japón …) que se asocian con la compañía para trabajar a propósito de una misma molécula.
Además, el estadístico debe relacionarse con profesionales de distintas disciplinas: médicos, farmacéuticos, químicos, biólogos…, dar soporte a distintos departamentos de la compañía y coordinar las CROs que trabajan para la empresa farmacéutica.
Entre todo, todavía queda espacio para la innovación y la investigación, para poder asegurar que se están empleando las mejores técnicas estadísticas de la forma más eficiente y que se está a la par desde un punto de vista científico y profesional con las demás compañías farmacéuticas a nivel mundial.
Linear model: an approach to the successful intercalibration of data in the Water Framework Directive
Flo, E. (*)
Insitut de Ciències del Mar, CSIC
The main objective of the Water Framework Directive (WFD; 2000/60/EC) is for all European waters to achieve a good status by 2015. In the WFD, status is assessed through information on biological quality elements and the final results are reported as water quality categories. Each member country of the European Union is allowed to apply its own metrics, methods, and reference conditions in data assessment. However, as each eco-region identified within the WFD encompasses several countries, implying potential bio-geographical differences, intercalibration processes are necessary to ensure the comparability of data classification. Although a few of these processes are simple, usually they are complex such that a statistical approach is necessary. For example, in the Mediterranean eco-region extending between France and Spain, the intercalibration process regarding phytoplankton in coastal waters not influenced by freshwater inputs is complex and is best solved by the application of a linear model (LM). Indeed, an evaluation of the linear pressure–impact relationship revealed bio-geographical differences between these two countries with respect to chlorophyll-a, a proxy of phytoplankton biomass. A LM was therefore performed using the R software and including a data doubling step. The offset was -0.41 between the common model and France, and 0.07 between the common model and Spain. A mathematical procedure was also performed to harmonize the boundaries among quality categories, with a correction coefficient of 0.22 set for France. Thus, the statuses of France and Spain are comparable if France sums the correction coefficient to its chlorophyll-a values before assessing the quality of its waters. In conclusion, our example shows that a LM is a pragmatic approach to ensuring the comparability of the data assessment among countries participating in the WFD, and therefore in the achievement of its primary objective.
The impact of immigration and vaccination in reducing the incidence of hepatitis B in Catalonia (Spain)
Oviedo, M.(1, 2), Muñoz, M.P.(2, 3) (*), Carmona, G.(4), Borrás, E.(2, 4), Batalla, J.(2, 4), Soldevila, N.(2), Domínguez, A.(2, 5)
1 Department of Statistics and Operations Research, Universidade de Santiago de Compostela (St. Lope Gómez de Marzoa, s/n. Campus sur), Santiago deCompostela 15782, Spain.
2 CIBER Epidemiología y Salud Pública (CIBERESP), Melchor Fernández Almagro 3-5, Barcelona 28029, Spain.
3 Department of Statistics and Operations Research, Universitat Politècnica de Catalunya (UPC), Jordi Girona, 1-3, Barcelona 08034, Spain.
4 Agency of Public Health of Catalonia, Roc Boronat 85, Barcelona 08005, Spain.
5 Departament de Salut Pública, Universitat de Barcelona, Casanova 143, Barcelona 08036, Spain.
Background: The Hepatitis B virus (HBV) infection is a major cause of liver disease and liver cancer worldwide according to the World Health Organization. Following acute HBV infection, 1-5% of infected healthy adults and up to 90% of infected infants become chronic carriers and have an increased risk of cirrhosis and primary hepatocellular carcinoma. The aim of this study was to investigate the relationship between the reduction in acute hepatitis B incidence and the universal vaccination programme in preadolescents in Catalonia (Spain), taking population changes into account, and to construct a model to forecast the future incidence of cases that permits the best preventive strategy to be adopted.
Methods: Reported acute hepatitis B incidence in Catalonia according to age, gender, vaccination coverage, percentage of immigrants and the year of report of cases was analysed. A statistical analysis was made using three models: generalized linear models (GLM) with Poisson or negative binomial distribution and a generalized additive model (GAM).
Results: The higher the vaccination coverage, the lower the reported incidence of hepatitis B (p<0.01). In groups with vaccination coverage > 70%, the reduction in incidence was 2-fold higher than in groups with a coverage <70% (p <0.01). The increase in incidence was significantly-higher in groups with a high percentage of immigrants and more than 15% (p<0.01) in immigrant males of working age (19-49 years).
Conclusions: The results of the adjusted models in this study confirm that the global incidence of hepatitis B has declined in Catalonia after the introduction of the universal preadolescent vaccination programme, but the incidence increased in male immigrants of working age. Given the potential severity of hepatitis B for the health of individuals and for the community, universal vaccination programmes should continue and programmes in risk groups, especially immigrants, should be strengthened.
Keywords: Hepatitis B, Incidence, Vaccination, Immigration, GLM model, GAM model
Statisticians Statistically Significant
Núñez, X. (*)
Senior Statistician TFS Develop
Mi nombre es Xavier Núñez y trabajo como estadístico senior en una CRO para la indústria farmacéutica –TFS. Mi empresa ofrece servicios de project management, monitorización, data entry, data management, estadística y medical writing en ensayos clínicos o estudios observacionales a laboratorios farmacéuticos, empresas biotecnológicas o centros de investigación biomédica. El equipo de data managers y estadísticos es un grupo multidisciplinar que realizan tareas de creación y gestión de bases de datos, programación de queries, tablas, gráficos y listados, redactado de la parte estadística del protocolo y plan de análisis estadístico –SAP, cálculo de tamaño muestral, informe estadístico, entre otros.
Nuestro trabajo diario incluye tanto la aplicación de conocimientos técnicos y herramientas estadísticas como la interacción con otros departamentos (medical writer, project leader, monitor, etc.) y la comunicación con el cliente, con el fin de cubrir las necesidades de estos últimos.
El hecho de trabajar como estadístico en la indústria farmacéutica implica una serie de requisitos éticos y regulatorios, como son la aplicación de las buenas prácticas clínicas –GCP y el cumplimiento con las guías ICH para ensayos clínicos, como la ICH-9 –Statistical Principles for Clinical Trials, la ICH-3 –Structure and Content of Clinical Study Reports, etc.
Las técnicas estadísticas utilizadas dependen mucho del tipo de estudio o del área terapéutica.
En mi presentación intentaré explicar cómo es el día a día de un estadístico trabajando en ensayos clínicos, el tipo de estudios que hacemos, sus características y peculiaridades y también enfatizaré la necesidad que tiene la industria de tener estadísticos cualificados para realizar los análisis de los datos.
La vida professional d’una jove bioestadística
Pérez-Álvarez, S. (*)
Secretaria de la Societat Catalana d’Estadística
Bioestadística a Institut de Recerca de la Sida – IrsiCaixa
Ser professionals de l’estadística ens permet treballar a pràcticament qualsevol àrea: indústria, economia, psicologia, química, turisme. I ho podem fer tant d’una manera aplicada com teòrica, si és que podem diferenciar-ho.
Com a bioestadística he tingut la oportunitat de treballar i col·laborar amb equips multidisciplinaris integrats per metges, biòlegs, veterinaris, etc. i intentar aportar el rigor metodològic a la ciència.
M’agradaria explicar-vos la meva visió del món de la bioestadística des de tres posicions diferents:
- La bioestadística a la societat actual com a secretaria de la Societat Catalana d’Estadística (SCE),
- La recerca estadística com a membre del Grup de Recerca en Anàlisi de la Supervivència (GRASS), i
- La recerca biomèdica com a bioestadística a l’Institut de Recerca de la SIDA IrsiCaixa col·laborant amb dos grups que treballen cercant la vacuna contra la SIDA i en l’aplicació de noves metodologies per millorar el tractament dels pacients.
Imputació de dades en l’avaluació de formació en línia en cures pal·liatives en Metges d’atenció Primaria
Pérez-Hoyos, S.(1) (*), Pelayo-Alvarez, M.(2), Agra-Varela, Y.(3)
1 Unitat de Suport a la Investigació Clínica. Institut de Recerca Vall d’Hebrón
2 Centre d’Atenció Primaria. Departament de Salut La Ribera
3 Direcció General Salut Pública, Qualitat Innovació, Ministeri de Sanitat
A l’hora d’avaluar problemes de salut mitjançant escales un dels principals problemes són les dades mancants en algunes de les preguntes que formen part de l’escala. Es va dur a terme un assaig clínic on els metges eren assignats a l’atzar a un curs de formació en línia en cures pal·liatives o a formació tradicional. Per cada metge es van seleccionar 2 pacients (52 en cada grup) als qui es mesuraven algunes escales (Escala cures pal·liatives versió pacient i metge (POS), Escala Dolor Rotterdam (RSCL) Escala breu dolor (BPI) en un moment inicial i als 7-10 dies. A més a més al 18 mesos s’avaluava una escala de coneixements i actituds per als metges (SERVQUAL).
L’objectiu del anàlisis era avaluar diferències en l’evolució en funció d’haver rebut o no la informació.
En un primer moment es van utilitzar tècniques d’imputació múltiple utilitzant equacions de cadena on cada valor perdut s’imputava mitjançant una regressió logística ordinal amb la resta ve valors de l’escala mesurada en els 2 moments.
A partir de 5 imputacions s’ajustava un model lineal mixt per comparar l’efecte del canvi entre les dues mesures i els dos grups. Els resultats es comparen en els obtinguts sense imputar.
El grup d’intervenció va mostrar una reducció del dolor, símptomes i ansietat del familiar. El RSCL va mostrar diferències globals entre els grups. Els metges del grup d’intervenció varen demostrar un increment en el coneixement però no en les actituds. Sense fer la imputació les conclusions eren semblants encara que hi havia mes d’un 20% de subjectes amb alguna dada mancant.
Generació de resultats en format HTML amb Stata
Quintó, L. (*), De Lazzari, E. , Sanz, S. , Aponte, JJ.
Unitat de Bioestadística – CRESIB – Hospital Clínic de Barcelona – Universitat de Barcelona
Una de les tasques diàries d’un estadístic professional consisteix en produir informes de resultats. Molt sovint, això suposa l’elaboració de taules i gràfics que resumeixen els resultats principals i es presenten en un document comprensible i estructurat. Sens dubte, tots hem patit el contratemps d’haver de repetir un informe estadístic a causa d’algun canvi en la base de dades o d’algun error no detectat prèviament. Si bé els fitxers-do d’Stata permeten reproduir les anàlisis i obtenir els resultats guardats en fitxers-log, aquests no són el dossier final i s’han de treballar “manualment”. Per altra banda, la confecció dels informes comporta un risc molt elevat de cometre errors de transcripció o d’oblidar-nos d’actualitzar algun resultat que hagi variat en la darrera versió de l’anàlisi. Per tot això, a la Unitat de Bioestadística del CRESIB ens vam preguntar com podríem generar aquests informes directament des de l’Stata i que fossin (1) fàcilment interpretables per aquells col·laboradors de no estan habituats a les sortides d’Stata, (2) accessibles sense necessitat de tenir el programa i (3) reproduïbles i senzills d’actualitzar, en cas de qualsevol canvi en les dades.
Presentem, doncs, l’experiència i les eines desenvolupades que ens permeten produir informes en format HTML que mostrin els resultats amb un aspecte atractiu i directament publicable.
Parlar estadística a la recerca clínica
Ríos, J.(1, 2) (*), Torrens, A.(2), Serrano, S.(2), Sardiña, J.(2), Torres, F.(1, 2)
1 Biostatistics Unit, Faculty of Medicine, Universitat Autònoma de Barcelona
2 Biostatistics and Data Management Core Facility, IDIBAPS, (Hospital Clinic), Barcelona, Spain
Dintre del mon de la consultoria estadística aplicada a la recerca clínica, una part important hauria de ser la divulgació. Mitjançant aquesta activitat es pretén aconseguir una valoració a l’alça de la nostra activitat, més enllà de la obtenció d’uns resultats d’un estudi. Aquets fet hauria de repercutir en un augment de cultura metodològica i estadística, alhora de millorar la valoració de possibles hipòtesis de projectes o la selecció d’articles publicats que poden recolçar-la.
La valoració crítica multidisciplinar d’un article de recerca és especialment crítica donat el costum general dels investigadors clínics de ‘saltar’ la part estadística de l’article o no entendre correctament els resultats tabulats i les seves representacions gràfiques. Mitjançant sessions divulgatives es pretén afavorir la comprensió d’unes anàlisis estadístiques cada cop més complexes i ‘crear cultura’ de consultar als serveis transversals de suport metodològic de recerca sobre aspectes relacionats amb el disseny, forma de recollir les dades i valoració conjunta dels mètodes d’anàlisi de les dades que siguin conformes per totes les parts, tant pels estadístics, com per l’equip de recerca clínica.
La forma tradicional de ‘parlar estadística’ a la docència pregrau , formal i dirigida a públic amb coneixements de fonaments teòrics, amb una estructura de exposició teòrica, resolució de dubtes ‘in situ’, aplicacions i/o pràctiques molt sovint fracassa en els actes docents postgrau on, el receptor, no disposa de fonaments teòrics i sovint pertany a un àrea de coneixement diferent, com ara la mèdica. La estructura de la docència hauria d’estar pensada i orientada a la aplicació directa, molt pràctica i contextualitzada, i especialment reforçada a ‘entendre estadística’ més que ‘fer estadística’.
Per a captar l’interès d’aquests actes es proposa fer servir articles publicats en revistes indexades d’alt impacte i, per tant, referents clars per a investigadors clínics. Els articles a triar haurien de ser prou provocadors com per trencar el ritme formal habitual d’aquests actes docents. La tria haurà d’estar doncs dirigida al caràcter inusual de la hipòtesis per a afavorir aquesta provocació suficient com per dinamitzar l’acte docent.
L’Estadística aplicada al programa de recerca en epidemiologia del càncer de l’Insitut Català d’Oncologia
Tous, S. (*), Quirós, B. , Alemany, L. , de Sanjosé, S. , Bosch, FX.
Unitat d’Infeccions i Càncer, Programa de Recerca en Epidemiologia del Càncer, Institut Català d’Oncologia (ICO), IDIBELL, L’Hospitalet de Llobregat. Barcelona.
El Programa de Recerca en Epidemiologia del Càncer (PREC), dins de l’Institut Català d’Oncologia, té com objectius principals la investigació de la etiologia infecciosa, nutricional i ambiental del càncer i la coordinació del programa de cribatge de càncer de cèrvix. Consta de dues unitats: la Unitat d’Infeccions i Càncer (UNIC) i la Unitat de Nutrició, Ambient i Càncer (UNEC), amb els seus respectius laboratoris. També coordina el Centre d’Informació ICO sobre el Virus del Papil·loma Humà (VPH) i Càncer i el projecte de formació e-oncologia.
El PREC està format per un grup multidisciplinari de 70 professionals, integrat per epidemiòlegs, biòlegs, nutricionistes, estadístics i administratius, entre d’altres. L’activitat el 2012 va ser de 189 publicacions a revistes internacionals amb un Factor d’Impacte acumulat des de l’any 2004 de 1.011,782; es van editar 6 llibres i 3 capítols de llibres, i es van presentar 132 comunicacions a congressos, tant d’àmbit nacional (36) com internacional (96).
Els estadístics al PREC participem en el disseny de nous estudis, generació de formularis de recollida de dades, depuració de bases de dades, anàlisi i interpretació dels resultats, presentació en congressos i en la publicació d’articles en revistes científiques.
Des de la meva incorporació al PREC-UNIC el 2005 he treballat majoritàriament en un projecte retrospectiu internacional que té com a objectiu principal determinar la prevalença i distribució de tipus de VPH en càncers anogenitals i de cap i coll. He aplicat models de regressió logística i estimació de la contribució relativa dels tipus de VPH segons regió geogràfica, any i edat de diagnòstic i histologia del càncer. He aplicat tècniques d’imputació de dades mancants i evaluat com es comporten les co-infeccions mitjançant anàlisi de clústers, models d’efectes aleatoris, entre d’altres. També participo en estudis de recurrència de càncer en estudis prospectius aplicant models d’anàlisi de la supervivència i regressió de Cox.
Altres tipus d’anàlisis estadístiques que fem són el càlcul del tamany mostral, models de cost-efectivitat , models no-paramètrics, splines, models GAM, Bootstrap, exercicis de simulació, etc. Els softwares emprats més freqüentment són Microsoft ACCESS, SPSS, R, STATA, GRANMO, SAS.
Optimal number of years to make a prediction for mortality or incidence rates
Valls, J.(1) (*), Clèries, R.(2)
1 Unitat de Bioestadística , Institut de Recerca Biomèdica de Lleida
Departament de Matemàtiques, Universitat Autònoma de Barcelona
2 Pla Director d’Oncologia de Catalunya-Departament de Salut GENCAT
Departament de Ciències Clíniques. Universitat de Barcelona
Prediction of the future burden of a disease, both in size and trend, is a key issue for health services planning, and can be used to define proper allocation of resources and prevention and to design public health programs. Different models have been proposed to obtain predictions estimates, being the precision of those predictions an important issue, although it is not clear which of the available prediction methods is best suited to a particular situation.
Age-period models are one of the most common choices when making predictions in a future period by means of fitting incidence or mortality rates of a given disease during a certain period of time, which is called the basis of the prediction. One of the problems to be tackled is the number of years required to fit the models. Here, we propose a simple approach, based on Pearson goodness-of-fit statistic, to determine a reasonable number of years for the basis of the prediction. To illustrate this, we use historical data of cancer mortality in Spain. Basis periods considered started from the last k=5, 10, 15 years since the last year with available observed mortality data in Spain and also the one determined by our approach. Poisson age-period models were used, considering the multiplicative and additive scenario but also age-drifts. In addition, two scoring rules, log-score and Dawid-Sebastiani, are used to assess the obtained predictions for all models, so that it can be assessed the performance of the models.
___________________________________________________________________________________________________
___________________________________________________________________________________________________
Business Analytics and other applications
Ver, o no ver, esa es la cuestión ¿Conoces lo que dicen tus datos?
Con SAS Visual Analytics puedes!
Aguilera, J. (*)
Information Management Presales en SAS
SAS Visual Analytics es la primera solución del mercado que da un paso más allá del tradicional Business Intelligence, ofreciendo Self-service Business Intelligence real, y Self-service Analytics. SAS Visual Analytics pone en manos de los usuarios capacidades de análisis de datos muy avanzadas, sin importar cuál sea el volumen de los mismos.
Una innovadora solución de análisis avanzado pensada y diseñada para cualquier usuario en tu organización. Con ella podrás visualizar tus datos, entender mejor tu negocio y tomar decisiones óptimas en minutos o segundos.
SAS Visual Analytics es la primera solución en ofrecerte:
- Self-service Business Intelligence: O lo que es lo mismo, tener más autonomía al crear informes sin necesidad de ser un experto
- Capacidad analítica sobre tus datos para una mejor toma de decisiones: Toda la potencia analítica de SAS por primera vez al alcance de cualquier perfil en tu compañía. Lo que te permitirá:
- Descubrir en tus datos información inesperada,
- Crear correlaciones,
- Detectar patrones,
- Utilizar árboles de decisión,
- Predecir tendencias,
- Geolocalización de la información, …
- Máxima Velocidad y escalabilidad: La exploración y gestión de los datos se hace de manera instantánea y flexible, gracias a la plataforma analítica en memoria. Ésta permite manejar todas las variables que quieras, con cualquier volumen de datos y sobre cualquier tipo de fuente. Todo esto supone un aumento de la eficiencia a la hora de crear cuadros de mando e informes.
- Cualquier momento y cualquier lugar: Crear y compartir tus análisis vía web y consumirlos desde tu Tablet pudiendo trabajar en modo online y offline.
Y todo ello dotado de la seguridad que necesitas, ya que SAS Visual Analytics te permite gestionar permisos y controlar el acceso a la información. De esa forma tú decides qué información compartes con qué usuarios, según sus roles, y asignar los permisos de acceso correspondientes.
Consejos para mejorar la eficiencia de los programas SAS
Alcaide, D. (*)
BioClever, S.L.En todos los lenguajes de programación existen técnicas que pese a realizar las mismas funciones que otras, son más eficientes. La diferencia entre un programa eficiente y uno que no, es que utilizando menos recursos el programa eficiente desempeña el mismo trabajo que él no eficiente.
Cuando se ejecuta un programa SAS, el ordenador a grandes rasgos ejecuta un conjunto de acciones secuenciales como son:
- Cargar el software en memoria.
- Compilar el programa que será ejecutado.
- Leer los datos necesarios para la ejecución (normalmente datasets).
- Realizar las operaciones descritas en el programa.
- Mostrar los resultados obtenidos (outputs).
Todas estas acciones requieren tiempo y espacio. Para el ordenador el tiempo está compuesto del tiempo del procesador (CPU) y el tiempo de lectura y escritura de los datos (I/O), y el espacio requerido está compuesto de memoria.
En el ámbito que nos ocupa, las principales perdidas de eficiencia de los programas SAS provienen del tiempo que pierde la CPU realizando operaciones redundantes y el número de veces que el sistema accede a las bases de datos (tanto para leer como para escribir datos).
La mejoría de eficiencia no es siempre absoluta ya que la reducción de un recurso puede implicar aumentar el consumo de otro, pero gran parte de la eficiencia puede ser conseguida aplicando estrategias simples de programación.
Creation of a Graphical User Interface with R: application to a dairy farm model
Alabert, A.(1), Amores, M.(2) (*), Calsamiglia, S.(3), Castillejos, L.(3), Farré, M.(1)
1 Departament de Matemàtiques, UAB
2 Estudiant, Grau de Matemàtiques i Grau d’Estadística Aplicada, UAB
3 Departament de Ciència Animal i dels Aliments, UABWe present a Graphical User Interface (GUI) that we have developed using the R library gWidgets. This library provides a convenient tool to create GUIs with graphical outputs. The GUI that we show here, it is used to analyse a stochastic model for dairy farms. This project involves the sensitivity analysis of a response variable (the daily profit) with respect to the parameters describing the milk production, the market prices and the management protocols. In the long term, the aim of the project is to contribute to improve the economic performance of the dairy farms.
Specifically, the milk production, the reproductive performance and other physiologic functions of the life cycle of a dairy cow are simulated by means of random distributions depending on one or more parameters. Varying the values of the parameters allows the adaptation to the idiosyncrasies of different farms. For example, it is assumed that the lifetime of a cow (without any kind of human intervention) follows a Weibull distribution, W(a,b), being the values of the shape and scale parameters, a and b, specific of each dairy farm. Moreover, several economic factors, such as the milk and meat prices and some management protocols, i.e. the culling decisions, are taken into account in the model as deterministic parameters varying in some given range. Once the farm behavior is modeled following this scheme, then the process can be easily replicated, using R code, to obtain reliable estimations for the daily profit of a dairy farm. To represent a real situation of interest, or scenario, most of the parameters defining the stochastic behaviour of the farm will be kept fixed, and only the parameter which sets the different protocols (the culling threshold, L) is left free. In each scenario, the mean profit is computed and plotted as a function of the parameter. The graphical interface is used to interact with the program in an easy way, by changing some parameters values in the GUI to simulate different scenarios.
Effect size Confidence Intervals for Pr(X < Y ) with censored data
Badiella , Ll. (*)
Director del Servei d’Estadística Aplicada, UABIn order to test non-parametrically that two samples are drawn from the same survival function in the presence of censored data, several approaches are commonly used: Gehan’s generalized Wilcoxon test, logrank test, Peto and Peto’s test.
These tests do not provide a clinical measure of the magnitude of the differences between groups.
On the other hand, Efron (1967) proposed an unbiased estimation of the Mann-Whitney parameter Pr(X < Y ) under random censorship.
This statistic, commonly used in the context of diagnostic tools, can be easily interpreted from a clinical point of view and used for assessing differences between survival curves, as an effect size measure. We propose a method to estimate its variance and obtain confidence intervals based on inverse probability of censorship weighted (IPCW) U-statistics for right-censored data. A simulation study under different censorship patterns is conducted to evaluate the accuracy of the confidence intervals and the performances of the aforementioned tests.
Key words: Two-sample Non-parametric tests for censored data, Mann-Whitney parameter, Inverse probability of censorship weighting.
Estadística aplicada en la recerca del Tercer Sector
Fernández, M.(1) (*), Vidal, P.(2)
1 Investigadora de l’Observatori del Tercer Sector
2 Director de l’Observatori del Tercer SectorL’Observatori del Tercer Sector –OTS- és un centre de recerca especialitzat en aquest sector, sense ànim de lucre i independent, amb la finalitat d’aprofundir i incrementar el coneixement sobre el sector i treballar per a la millora en el funcionament de les organitzacions no lucratives.
L’aplicació i combinació de tècniques d’investigació quantitatives i qualitatives és essencial en la nostra recerca. La feina investigadora de l’OTS combina l’estadística descriptiva i inferencial amb tècniques pròpies de l’anàlisi qualitatiu. Per això, s’empren els softwares adients en cada cas.
Al llarg dels deu anys de trajectòria, s’han realitzat nombrosos estudis per dimensionar i definir les característiques principals que conformen el Tercer Sector, en especial de les organitzacions socials catalanes a través de la publicació periòdica dels Anuaris del Tercer Sector Social. Enguany es presenta la tercera edició d’aquesta recerca que té per objectiu analitzar l’estat i evolució del sector, aportant dades que el permeten dimensionar i conèixer les seves característiques.
Existeix una dificultat per dimensionar les organitzacions que formen el Tercer Sector Social donat que es tracta d’un sector dinàmic, on constantment es creen i es dissolen entitats, i donada la manca de mecanismes per comptabilitzar les baixes. Tota entitat, per constituir-se jurídicament, ha de donar-se d’alta en el registre de la Direcció General de Dret i d’Entitats Jurídiques del Departament de Justícia de la Generalitat de Catalunya. Però en el moment que una organització es dissolt no necessariament es dóna de baixa d’aquest registre.
Així doncs, la projecció de xifres globals del Tercer Sector Social –tant en el nombre d’entitats que la composen com les persones que en formen part, el seu volum econòmic, etc- s’estima partint d’un mostreig estratificat -en base als col·lectius de persones destinatàries- i amb control de quotes -per distribució territorial i grandària de les organitzacions-. Un cop obtinguda una mostra representativa del sector, s’empra l’anàlisi inferencial per determinar si els resultats obtinguts en la mostra poden ser generalitzats. Donat que comptem amb dades d’evolució també s’analitzen aquestes a fi de determinar la coherència amb les dades inferides, donant lloc a uns resultats consistents.
Spin offs de bioestadística. Un modelo de negocio alternativo a través de la experiencia de Biostatech.
Lustres-Pérez, V.(1) (*), López-Ratón, M.(1, 2), Cuntín-González, M.(1), Cadarso-Rebolledo, A.(3), Cadarso-Suárez, C.(2)
1 Biostatech, Advice, Training & Innovation in Biostatistics, S.L., Edificio Emprendia, Campus Vida s/n, 15782 Santiago de Compostela (A Coruña)
2 Unidad de Bioestadística, Facultad de Medicina, C/ San Francisco s/n, Universidad de Santiago del Compostela, 15782 Santiago de Compostela (A Coruña)
3 UCM / IFF-CSICEn los últimos años, está siendo potenciada una línea alternativa para el desarrollo de modelos de negocio, cuyo origen se fundamenta en la generación de ventajas tecnológicas y de conocimientos, que sean competitivas, a través de resultados alcanzados desde grupos de investigación pertenecientes a Organismos Públicos de Investigación (OPIs). Sobre esta base, se está impulsando la creación de spin offs de base tecnológica, en distintos ámbitos y sectores productivos.
Estos proyectos empresariales presentan importantes ventajas, y suponen una vía de conexión entre el entorno universitario y empresarial, que facilita, entre otras cuestiones relevantes, la incorporación de personal de alta cualificación para su desarrollo.
Biostatech S.L., es una spin off de bioestadística creada a partir del grupo interdisciplinar de bioestadística (GRIDECMB) de la Universidad de Santiago de Compostela. Se trata de un proyecto pionero en Galicia, cuyo principal objetivo es aportar un valor añadido a las investigaciones realizadas desde el entorno público y privado, sobre todo, en el ámbito de las Ciencias de la Vida y la Salud.
Asimismo, ofrece diversas ventajas a sus clientes a través de productos de asesoramiento y formación, para resolver sus necesidades de la forma más adecuada, y siempre manteniendo un criterio de calidad en todas sus fases.
Desde Biostatech, queremos aportar nuestra visión, a través de la experiencia acumulada, compartiendo nuestra percepción de la demanda actual en estadística, y en extensión, de las necesidades de desarrollo de software específico.
Expondremos aspectos relacionados con la resolución de los problemas y retos que nos han sido planteados. Principalmente, con la utilización de análisis de supervivencia, modelos aditivos generalizados (GAM), estudios de discriminación a través de la metodología ROC, o modelos mixtos para el estudio de datos dependientes y marcadores longitudinales, entre otros. Finalmente, plantearemos un estudio interdisciplinar que desarrollará Biostatech próximamente acerca de la mejora de la gestión de recursos marinos.
Ventajas del enfoque Bayesiano en Salud Pública
Perpiñán, H. (*), Lladosa, S. , Amorós, R. , Forte, A. , Muñoz, F.
BayeStats S.L.La estadística es, hoy en día, una de las principales herramientas para la toma de decisiones en muchos ámbitos de nuestra sociedad incluyendo, por supuesto, la salud pública. La efectividad de un medicamento, la idoneidad de un nuevo proceso médico etc. son cuestiones a las que los sistemas de salud se enfrentan a diario y suponen la toma de decisiones que conllevan grandes cantidades de dinero asociadas.
Desde BayeStats creemos que la correcta interpretación de los resultados es fundamental para tomar decisiones acertadas y estamos convencidos de que la estadística Bayesiana permite una interpretación más ajustada gracias a que los resultados se comunican en términos de distribuciones de probabilidad.
Para ilustrar esta idea presentamos una comparativa entre el análisis clásico y bayesiano y la interpretabilidad de los resultados de un problema que ha tratado nuestra empresa recientemente. Se trata de un estudio sobre las diferencias nutricionales entre niños autistas y no autistas cuyos datos han sido facilitados por Salvador Marí Bauset perteneciente a la Unidad de Salud Pública, departamento de medicina preventiva, Universitat de València dentro del proyecto CIBERESP (CIBER-Epidemiología y Salud Pública) cuya tesis está siendo dirigida por la doctora María Morales.
El paper de l’estadística pública en la revolució de les dades del segle XXI
Udina, F. (*)
Director de l’Institut d’Estadística de Catalunya (www.idescat.cat)Farem una breu presentació del projecte de transformació dels models de producció i difusió estadística que hem posat en marxa a l’Idescat. Aquests nous models han de servir per mobilitzar la informació ja disponible en les administracions públiques de Catalunya, mobilitzar-la en el sentit de integrar-la en una sèrie de registres estadístics centrals (de població, de territori i d’empreses-establiments) que possibilitin l’enllaç (o la fusió) d’informacions de procedències diverses mantenint alhora la confidencialitat que en la majoria dels casos és essencial. Aquest requeriment de confidencialitat és el que fa que només un organisme d’estadística oficial pugui fer aquest paper de centralitzar la informació sense anonimitzar, de manera que es pugui processar íntegrament abans de desprendre-la dels detalls d’indentificació i procedir a la agregació d’interès.
Aquests nous models i les conseqüències que se’n deriven són d’interès en primer lloc per a l’administració pública i per la societat en general, incloent-hi els investigadors de les ciències socials i econòmiques, però també ho han de ser pels actors econòmics i socials en tant en quant han de servir per posar al seu abast un conjunt d’informació útil per a dinamitzar l’activitat econòmica.
OmyStat – Una aplicación web para el análisis de datos guiado
Vázquez, A. (*), Badiella, Ll.
Servei d’Estadística Aplicada, UABOmyStat es una aplicación web desarrollada conjuntamente entre d2d, Davalor y el Servei d’Estadística Aplicada de la UAB, que permite llevar a cabo el análisis estadístico para los procesos de control de calidad.
A menudo, los responsables del control de calidad de procesos no disponen de herramientas simples o del tiempo necesario para analizar sistemáticamente los procesos de fabricación. Por este motivo, la aplicación OmyStat ofrece los recursos necesarios para analizar automáticamente este tipo de datos mediante una interfaz muy simple diseñada en forma de árbol decisorio, implementada en varios idiomas y proporcionando ayuda al usuario así como recomendaciones diversas para proseguir con los análisis.
El investigador se puede encontrar en 3 posibles escenarios: cuando aún no se han recogido los datos, cuando ya están disponibles los datos de un estudio piloto, o cuando ya se han recogido los datos experimentales. Para el primero de los escenarios OmyStat indica cómo realizar la recogida de datos y ciertas recomendaciones para completar el estudio. En el segundo de los escenarios, la aplicación ofrece el análisis del estudio piloto e indica los pasos a seguir para llevar a cabo el estudio definitivo. Finalmente en el último de los casos se obtiene el análisis completo de los datos.
El motor de análisis se sustenta en el software R y en particular en la aplicación Sweave, donde se ha programado la metodología estadística necesaria para realizar los análisis en los diferentes escenarios. El resultado final es un informe en formato pdf en el que se listan los resultados de los análisis y las recomendaciones a seguir.