banner

Blog

Nov 27, 2023

reales sin supervisión

Scientific Reports volumen 12, Número de artículo: 20783 (2022) Citar este artículo

2466 Accesos

1 Citas

96 Altmetric

Detalles de métricas

Presentamos el procesamiento de datos del mundo real en datos de tiempo de vuelo de electrones medidos a través de redes neuronales. Específicamente, el uso de codificadores automáticos variacionales desenredados en datos de un instrumento de diagnóstico para el monitoreo de longitud de onda en línea en el láser de electrones libres FLASH en Hamburgo. Sin conocimiento a priori, la red puede encontrar representaciones de espectros FEL de un solo disparo, que tienen una baja relación señal-ruido. Esto revela, de una manera directamente interpretable por humanos, información crucial sobre las propiedades de los fotones. Se identifican la energía del fotón central y la intensidad, así como características muy específicas del detector. La red también es capaz de limpiar datos, es decir, eliminar ruido, así como eliminar artefactos. En la reconstrucción, esto permite la identificación de firmas con muy baja intensidad que son difícilmente reconocibles en los datos sin procesar. En este caso particular, la red mejora la calidad del análisis de diagnóstico en FLASH. Sin embargo, este método no supervisado también tiene el potencial de mejorar el análisis de otros tipos similares de datos de espectroscopia.

Los láseres de electrones libres (FEL) permiten la ciencia atómica y molecular en el régimen de femtosegundos a attosegundos mediante la creación de pulsos de fotones muy intensos en esa escala de tiempo. Sin embargo, los FEL que se basan en el principio de emisión espontánea autoamplificada (SASE)1,2, como FLASH3, producen propiedades de pulso espaciales, espectrales y temporales que fluctúan fuertemente de un pulso a otro. Por lo tanto, un diagnóstico de fotones confiable en un solo disparo es esencial para el análisis de datos sólidos de los experimentos científicos de usuarios realizados en tales instalaciones. La clasificación posterior al experimento de los datos registrados con respecto a diferentes propiedades, como la intensidad o la longitud de onda, puede revelar firmas de procesos físicos que de otro modo estarían ocultos o incluso ocultos en los conjuntos de datos. En los FEL se utiliza una serie de instrumentos de diagnóstico para medir la fotoionización de objetivos de gas, como el Detector de monitor de gas (GMD)4,5 para medir la energía absoluta del pulso, THz-streaking6,7 para determinar la estructura temporal del pulso de fotones8, así como el espectrómetro de fotoionización en línea OPIS9,10 (ver Fig. 1) y la llamada cookie-box8,11 que utilizan la espectroscopia de fotoelectrones para obtener información sobre la distribución espectral de la radiación FEL. Estos métodos de diagnóstico tienen la ventaja de que pueden diseñarse para que sean casi completamente no invasivos. En un proceso de fotoionización, debido a la alta intensidad FEL, se puede crear una carga espacial significativa10 en el objetivo de gas ionizado en la región de interacción de los instrumentos. Esta carga espacial incluso se acumula para altas tasas de repetición de pulsos FEL, ya que los iones de gas objetivo creados no pueden disiparse lo suficientemente rápido por repulsión de Coulomb ni pueden reponerse con átomos nuevos y unionizados antes de que llegue el siguiente pulso FEL. Para instrumentos basados ​​en espectroscopía de fotoelectrones, como OPIS, la carga espacial puede distorsionar la medición de diagnóstico porque altera la distribución de energía cinética de los fotoelectrones. Para minimizar tales efectos perjudiciales inducidos por la carga espacial, OPIS se opera a bajas presiones de gas objetivo. Por esta razón, los espectros de un solo disparo de OPIS generalmente muestran bajas tasas de conteo y, en consecuencia, las fotolíneas comprenden solo una pequeña cantidad de eventos de un solo electrón, que aparecen como picos en el espectro, que no se distinguen claramente de los picos de ruido aleatorio (ver Fig. 1 ). Para obtener resultados de longitud de onda significativos, generalmente se aplica un esquema de promedio móvil en intervalos de tiempo variables. Por lo tanto, la información confiable de disparo a disparo, que es importante para los experimentos, no pudo proporcionarse en la mayoría de los casos en el pasado. Aquí presentamos un método para revelar las propiedades de los fotones en modo de resolución de un solo disparo, a pesar de las bajas estadísticas, mediante el empleo de inteligencia artificial que aprovecha un tipo especial de codificador automático, que representa los datos obtenidos por el dispositivo de diagnóstico de forma comprimida y comprensible. forma.

Los métodos de análisis tradicionales como el análisis de componentes principales (PCA) son robustos y han demostrado su capacidad en varias aplicaciones10, pero pueden estar limitados por dos problemas principales: (a) el método es lineal y, por lo tanto, intrínsecamente incapaz de describir efectos no lineales y (b) las representaciones de los datos (los componentes principales y sus factores de escala) no son necesariamente fáciles de interpretar. Al escalar bien con alta dimensionalidad y ser capaces de describir efectos no lineales, las redes neuronales se hicieron populares durante las últimas décadas como una poderosa herramienta de análisis en todas las categorías de la ciencia12. Las redes de autocodificador (AE)13 construidas por capas de neuronas son capaces de comprimir datos a una dimensionalidad más baja, el llamado espacio latente. Si bien una red AE de 1 capa es equivalente a un análisis PCA12, los problemas de mayor complejidad y con efectos no lineales se pueden manejar agregando múltiples capas de neuronas al codificador y decodificador. Cuando se usa una red de este tipo, la representación del espacio latente normalmente no se puede usar fácilmente para la extracción de conocimiento y debe procesarse más para transformarla en parámetros que los humanos puedan interpretar. Esto se puede hacer, por ejemplo, con otra red neuronal. Sin embargo, este proceso requiere el establecimiento de etiquetas para el entrenamiento de la red, es decir, la atribución de los valores reales de ciertas propiedades físicas en el momento de la medición a los datos registrados, que en nuestro caso como en muchas otras aplicaciones no están disponibles. Las redes de autocodificador variacional14,15 (VAE) realizan una operación de muestreo sobre un vector de media y desviación estándar en el cuello de botella dimensional de la red. Al obligar a estos dos vectores a estar cerca de una distribución normal mediante el uso de un término adicional en la función de pérdida, se crea una representación con un rango de valores y una variación dados. Al variar el espacio latente dentro de estos límites, es posible, con la parte del decodificador de la red, crear muestras de datos artificiales que representan posibles resultados de medición. Esta idea fue implementada por las llamadas \(\beta\)-VAE-networks16 en las que el término de desenredo en la función de pérdida está escalado por un factor, llamado \(\beta\). Por lo tanto, es posible equilibrar el peso entre una reconstrucción perfecta (es decir, desviación del error cuadrático medio de los datos sin procesar y reconstruidos) y el desenmarañamiento perfecto de los componentes del vector espacial latente, creando un compromiso entre el desenmarañamiento (\(L_{ \text {dis}}\)) y calidad de reconstrucción (\(L_{\text {rec}}\)), ambos representados en la función de pérdida general (\(L_{\text {all}}\)):

En general, encontrar el mejor valor absoluto de \(\beta\) es un desafío16,17. \(\beta\) depende en gran medida de los datos, es decir, del nivel de ruido, el tamaño y la forma de la región de interés y de qué medida se utiliza para evaluar la calidad de la reconstrucción.

FLASH3 opera en el llamado patrón de modo de ráfagas, generando trenes de racimo con una tasa de repetición de ráfagas de 10 Hz. Cada tren de racimo consta de hasta varios cientos de pulsos de fotones individuales, dependiendo de la tasa de repetición de racimo de hasta 1 MHz. En FLASH218, la energía del pulso y la duración del pulso oscilan entre 1 y 1000 µJ y entre 10 y 200 fs, respectivamente, y cubren un rango de longitud de onda de 4 a 90 nm. Para el monitoreo de longitud de onda FEL en línea con OPIS (ver Fig. 1, para detalles ver 9) un objetivo de gas noble, en nuestro estudio neón (presión de gas \(4.4 \times 10^{-7}\) mbar), introducido en la cámara de interacción es ionizado por los pulsos FLASH. La energía cinética \(E_{kin}\) de los fotoelectrones generados se mide mediante cuatro espectrómetros de tiempo de vuelo de electrones que funcionan de forma independiente (eTOF). Con el conocimiento de la energía de enlace \(E_{bin}\) de los orbitales excitados, para nuestro estudio neón 2p y 2s, se puede calcular la energía del fotón \(E_{pho}\) a través de

En el eTOF, los fotoelectrones viajan a lo largo de un tubo de deriva de 309 mm de longitud y luego son detectados por detectores de placa de microcanal (MCP). Se pueden aplicar voltajes de retardo a los tubos de deriva para desacelerar los fotoelectrones y, por lo tanto, aumentar la resolución de energía de los espectrómetros eTOF.

Once espectros representativos de tiempo de vuelo de disparo único (muestras) obtenidos por los cuatro espectrómetros de electrones OPIS (eTOF 0-3): Las trazas grises en la parte inferior no muestran ninguna señal de fotoelectrones, mientras que las otras diez trazas de arriba contienen fotoelectrones Ne 2p líneas con tiempos de vuelo sucesivamente más largos, lo que indica una disminución de la energía fotónica FEL. Los datos sin procesar se muestran mediante gráficos de colores en negrita, mientras que la reconstrucción de las muestras correspondientes se representa mediante líneas negras finas. Para una mejor visibilidad, las líneas base están separadas por un desplazamiento vertical de 0,1. Los cuatro paneles superiores muestran el espectro completo del tiempo de vuelo de los electrones, que es la entrada de la red neuronal, mientras que en los cuatro paneles inferiores se presenta una ampliación de la región de interés correspondiente, donde se espera la línea 2p. . El eje de acercamiento se convierte en energía cinética del fotoelectrón. Las características principales de las trazas están etiquetadas, como la posición máxima, los golpes aleatorios, las perturbaciones de la línea de base, una estructura en zig-zag, el indicador, la línea 2s y 2p, la reflexión electrónica debido a la falta de coincidencia de impedancia en la conexión del cable y la función de respuesta del detector correspondiente. Estos se reconstruyen (aparte de los aciertos aleatorios) y se codifican en el espacio latente. Los recuadros ampliados representan características que son difíciles de ver a gran escala. Todas las escalas son lineales.

Las trazas de tiempo de las señales amplificadas de los detectores MCP se registran mediante convertidores analógicos a digitales (ADC) rápidos con una frecuencia de muestreo de 7 GS/s y una resolución vertical de 8 bits. Cada espectro de disparo único consta de 3500 canales ADC y el agregado de los cuatro espectros eTOF representa una muestra de datos de entrenamiento con una dimensionalidad de \(4 \times 3.5\,\text {k = 14 k}\) (que incluye solo una estimación número de electrones que va de 0 a 20). En la Fig. 1 se presentan algunos ejemplos. La intensidad de las líneas de fotoelectrones en los espectros TOF registrados son comparables en los cuatro eTOF, estando en promedio dentro del 15 % de la amplitud (desviación estándar). Sin embargo, en los espectros de un solo disparo, las intensidades de las fotolíneas varían significativamente entre los cuatro eTOF debido a efectos estadísticos. La Figura 1 muestra una serie de datos normalizados de disparo único correspondientes a diferentes valores de la energía fotónica de la radiación FEL, para un tiempo variable de vuelo de los electrones 2p de neón. Se elige un marco de tiempo de monitoreo continuo de la longitud de onda en el que los parámetros de operación de OPIS (objetivo de gas, presión de la cámara, retardo del espectrómetro) permanecieron sin cambios. En este intervalo de tiempo, la energía del fotón FEL se escaneó entre 214 y 226 eV con un patrón irregular determinado. En OPIS, se utilizó neón como gas objetivo y el voltaje de retardo se fijó en 170 V, lo que resultó en una energía cinética reducida final de 22,4 a 34,4 eV y de 0,0 a 7,5 eV de los fotoelectrones 2p y 2s detectados, respectivamente. Se registraron aproximadamente 40 millones de muestras.

El objetivo final es entrenar una red que entregue toda la información deseada en un espacio latente de baja dimensión, es decir, cada componente del espacio latente debe representar una propiedad del principio central subyacente que puede ser interpretado por la mente humana y, por lo tanto, puede usarse directamente como información. para los experimentos. Para la función de pérdida, se utiliza el error cuadrático medio (MSE) como criterio para la calidad de la reconstrucción. El desenredo se describe mediante la divergencia20 de Kullback-Leibler (KL) del vector de media y desviación estándar en comparación con una distribución normal. Para permanecer automáticamente dentro del rango de valores de [0,1], la capa de salida se activa con una función sigmoidea. Para optimizar los hiperparámetros de la red neuronal se entrenaron unas 700 redes diferentes. El mejor rendimiento se logró con capas 22 totalmente conectadas y activadas por Mish con el decodificador y el codificador que constaban de 5 y 4 capas, respectivamente. Se usaron tamaños de lote de 252 en combinación con el optimizador Adam23 y una tasa de aprendizaje decreciente programada que va desde \(10^{-5}\) a \(10^{-7}\) a lo largo de 25 k épocas. El valor optimizado de \(\beta\) es 0,034. De los 40 millones de muestras de datos registradas en total, 33 millones se usaron para capacitación, 1 millón para validación y los 6 millones restantes representan los datos de prueba utilizados fuera del proceso de capacitación. El mejor rendimiento del codificador y decodificador se logra cuando las capas se eligen de tal manera que la dimensionalidad se reduce con el mismo factor para cada capa, lo que significa que para 5 capas y un espacio latente de 12 dimensiones, llamado z, las dimensionalidades de las capas son

El paso del 24 al 12 es la operación de muestreo. El decodificador es la versión reflejada del codificador excluyendo la operación de muestreo. El número 12 se derivó entrenando una red comenzando con solo una z unidimensional y luego aumentando sucesivamente el tamaño del cuello de botella dimensional. Para un tamaño superior a 12, el valor de pérdida final no mejoró significativamente. Usaremos la notación \(z=\left\{ z_{0},z_{1},z_{2},...,z_{11}\right\}\) para abordar los componentes individuales \(z_ {i}\) del espacio latente.

El objetivo de las mediciones OPIS es revelar valores de ciertas cantidades físicas. Para analizar si la red encontró un espacio latente que representa esas cantidades, se crean etiquetas mediante análisis convencionales realizados en los datos sin procesar. Para proporcionar etiquetas confiables, los datos deben cumplir con criterios específicos, que solo se aplican a una pequeña fracción de los datos disponibles. Por ejemplo, para el tiempo de vuelo de los fotoelectrones, es decir, la posición de la fotolínea en la escala TOF (referida con la etiqueta \(T_{0,1,2,3}\)), un ajuste de perfil de línea de mínimos cuadrados convencional Se ha realizado un análisis del pico más fuerte en cada uno de los cuatro eTOF. Aquí, los criterios para la discriminación de una característica de línea de fotoelectrones válida del ruido o impactos aleatorios de electrones se definieron de manera que (a) la amplitud máxima debe ser mayor que un umbral para la intensidad mínima (0,5 en la escala de la Fig. 1) y ( b) las posiciones del centro de los picos deben estar dentro de un rango TOF pequeño (15 canales TOF). La aplicación de este filtro reduce drásticamente el tamaño de los datos de prueba, pero devuelve datos de alta calidad. Aproximadamente el 3 % de los datos cumple este criterio y puede contribuir a la comparación entre las etiquetas y el espacio latente. Las etiquetas para las intensidades individuales de cada eTOF llamadas \(I_{0,1,2,3}\) se crean adicionalmente en el proceso del procedimiento de ajuste máximo. La posición del haz del FEL en el plano perpendicular al eje de propagación también fluctúa. Para tener una etiqueta robusta y simple para estas variaciones de puntería, se calcula la diferencia de tiempo de vuelo de 2p electrones, lo que da como resultado \(P_{02}\) (eTOF0 comparado con el eTOF2 en posición opuesta) y \(P_{ 13}\) (eTOF1 comparado con el eTOF3 en posición opuesta). Esto se explica en detalle en la información complementaria (SI). La perturbación de "Línea base 1" \(B_{1}\) se puede identificar evaluando eTOF0 con respecto a las discontinuidades, es decir, la característica de "borde" afilado en valores altos de tiempo de vuelo. Se identifica calculando la suma de las intensidades de 40 canales ADC antes del borde dividido por 40 después del paso en la línea base de la traza. La segunda perturbación \(B_{2}\) (ver "Línea base 2" e "Intensidad central" en la Fig. 1) es una característica más amplia que cubre la parte central de cada espectro TOF. Se identifica y etiqueta sumando la parte central de los espectros que luego se divide por la media de los datos en regiones espectrales al principio y al final del espectro. Para la adquisición de datos, la tasa de muestreo efectiva de 7 GSamples/s se logra intercalando en el tiempo cuatro chips ADC, muestreando con 1,75 GS/s cada uno. Nos dimos cuenta de que la red estaba codificando una correlación que apuntaba directamente a deficiencias sistemáticas de entrelazado: en gran parte de los datos, la ganancia de los respectivos ADC entrelazados de cada canal eTOF no es idéntica, lo que crea una estructura en zig-zag característica en los datos ( ver zoom-in y "zig-zag" en la Fig. 1). Esto se puede etiquetar fácilmente sumando todos los canales ADC pares e impares por separado y luego dividiendo estas dos sumas, lo que da como resultado las etiquetas \(L_{0,1,2,3}\). Para la energía del fotón, un valor independiente de OPIS es el parámetro de longitud de onda establecido \(\lambda _{FEL}\) que solo representa la longitud de onda nominal correspondiente a la configuración del ondulador y el acelerador FLASH. La longitud de onda real de FEL puede tener una cierta compensación, principalmente debido a dos factores: en primer lugar, la energía del haz de electrones en la sección del ondulador puede desviarse del valor de energía medido en la sección del acelerador debido a los componentes de dirección del haz, como la extracción FLASH2 y la compresión del racimo. chicanes18. En segundo lugar, la órbita del haz de electrones puede desviarse de la órbita nominal en la sección del ondulador, especialmente si los onduladores de espacio variable están sintonizados para escaneos de longitud de onda. Además, la longitud de onda fluctúa debido al proceso SASE dentro de un ancho de banda típicamente \(\sim\) 1%3, que en nuestro caso corresponde a un ancho de banda de energía fotónica de alrededor de 2 eV. Por lo tanto, la etiqueta \(\lambda _{FEL}\) es una etiqueta 'estimada' con una importancia moderada para la energía del fotón de disparo único. Además, se realizó un experimento de botella magnética21 en paralelo con nuestro estudio y sus datos se utilizan como referencia cruzada para la longitud de onda, que se presenta en el SI.

Estas etiquetas, que resultan del proceso de ingeniería de características antes mencionado, se comparan con los valores \(z_{i}\) que la red deriva para los datos en la Fig. 2. La calidad de la reconstrucción (curvas negras en la Fig. 1) es impresionante. alto para un cuello de botella de 12 dimensiones. La red encuentra la posición correcta de los fotoelectrones 2p, reconstruye la función de respuesta MCP individual para cada uno de los 4 eTOF, descarta eventos aleatorios no correlacionados y también puede reproducir la perturbación de la línea de base. Además de estos hallazgos, la línea de neón 2s está contenida en la reconstrucción solo en los casos en que la energía del fotón es de hecho lo suficientemente alta como para superar el voltaje de retardo usado de los tubos de vuelo. Dado que para nuestros datos la sección transversal de ionización es \(\sim\) 5 veces menor para Ne 2s en comparación con Ne 2p en el rango de energía de fotones de 214 eV a 226 eV y que la intensidad de la fotolínea 2s se extiende sobre un intervalo TOF mayor, este es un resultado impresionante19. Las firmas de Ne 2 difícilmente pueden identificarse en los datos sin procesar a simple vista o utilizando métodos de análisis convencionales. Igualmente impresionante es la reconstrucción de la llamada señal rápida, que es creada por fotones dispersos que golpean los MCP y, por lo tanto, produce otra pequeña característica de pico en una posición TOF fija. Esta señal marca la referencia t = 0 para la determinación del tiempo de vuelo de los fotoelectrones y por lo tanto es de gran importancia.

Se muestra la estructura de la red \(\beta\)-VAE (a) y la codificación no supervisada del principio básico subyacente (b), es decir, posición, intensidad, línea base, orientación e intercalación. Los gráficos de densidad representan la dependencia del espacio latente frente a las etiquetas, que se derivaron del análisis de datos tradicional utilizando datos de alta calidad (3 % del conjunto de datos). Los valores en el eje correspondiente (\(z_{i}\) y etiquetas) están normalizados min-max para las muestras de prueba procesadas. Todas las escalas son lineales.

Una información crítica para la mayoría de los experimentos en fuentes SASE-FEL es la energía del fotón central de disparo único. En las mediciones de OPIS, corresponde a la posición del pico en los espectros eTOF que se codifica en dos componentes de z, a saber, \(z_{0}\) y \(z_{1}\). En los mapas de posición \(z_{0,1}\) exhibe una dependencia que se asemeja a las funciones seno y coseno, respectivamente. Sin embargo, la posición no está codificada de una manera perfecta de seno-coseno o círculo. Esto se combina con una fase \(\phi\) definida por:

Comparación del rendimiento entre el análisis tradicional y la red neuronal: (a) La diferencia promedio de la predicción de la red de la posición de tiempo de vuelo (azul) en comparación con la posición esperada en el \(\lambda _{FEL}} \) de la calibración es significativamente menor que el error promedio dado por el análisis tradicional (naranja). El ancho de banda esperado se transforma a STD en canales TOF (rojo). Las STD de las predicciones de la red neuronal son casi idénticas al ancho de banda. (b) Para el 25 \(\lambda _{FEL}\), las posiciones TOF determinadas de la red y del análisis tradicional se comparan con una curva de calibración según la calibración del instrumento OPIS, que se determinó de forma independiente en el instrumento puesta en marcha de campañas. (c) Se muestra un disparo de ejemplo (gris) que tiene varios picos en diferentes posiciones en los eTOF. La posición esperada dentro del ancho de banda dado se muestra en rojo. Si bien el análisis tradicional no puede decidir cuál de los picos designar como señal fotoelectrónica real, la red reconstruye los picos en la posición correcta mientras ignora todos los demás picos en los datos sin procesar.

Para proporcionar la longitud de onda más precisa, \(\phi\) se corrige con una red neuronal adicional. Una fracción de los datos (3% de datos de alta calidad) donde los cuatro eTOF proporcionan la misma información para la longitud de onda, es decir, fotolíneas claras en posiciones similares, se utiliza para entrenar un perceptrón multicapa (MLP)24 completamente conectado. Este MLP proyecta \(\phi\) a las posiciones TOF ajustadas por mínimos cuadrados promedio de los picos 2p de los cuatro eTOF (ver Información complementaria). El rendimiento del método se evalúa triplemente: se compara con (a) los resultados del análisis de datos convencional (consulte la sección "Métodos"), (b) \(\lambda _{FEL}\) y (c) el centro de masa del experimento de la botella magnética (ver Información complementaria). La comparación con \(\lambda _{FEL}\) se realiza utilizando la curva de calibración de OPIS que se muestra en la Fig. 3b para la red y el análisis tradicional. Los resultados se resumen en la Fig. 3a. La diferencia promedio de la predicción de la red en los canales TOF es menor por un factor de 2 en comparación con el método convencional. El ancho de banda estimado del FEL se traduce a un valor de desviación estándar (STD) en canales TOF. Este STD del ancho de banda está cerca del STD de las predicciones de la red, mientras que el resultado convencional difiere más significativamente. Para mostrar cómo la red supera el análisis convencional, la figura 3c muestra una toma que es difícil de analizar. Múltiples picos con amplitud similar aparecen en diferentes posiciones TOF. Se muestra \(\lambda _{FEL}\) incluido el ancho de banda para indicar la región donde se esperan los fotoelectrones. La red reconstruye el pico en la región correcta, presentada en la Fig. 3c. Por el contrario, el método tradicional lucha por identificar los picos correctos. Como comparación independiente de la fluctuación SASE, la longitud de onda predicha también se compara con el centro de masa de la fotolínea 2p de azufre del 2-tiouracilo en el experimento de la botella magnética, que se realizó en paralelo a nuestro estudio. Aquí también se encuentra un buen acuerdo y este se presenta en el SI.

Además de la recuperación de la longitud de onda, se codifican muchas otras características en el espacio latente durante el proceso de entrenamiento no supervisado. La red codifica la distribución de intensidad de los 4 eTOF en \(z_{2}\), \(z_{3}\) y \(z_{4},\) que se representa en la Fig. 2. \(B_{ 1}\) y \(B_{2}\) están codificados en dos componentes separados de z, a saber, \(z_{4}\) y \(z_{5}\), como se muestra en la Fig. 2. Curiosamente, \(B_{1}\) solo ocurre en dos racimos específicos del tren de pulsos y \(B_{2}\) incluso se limita a un solo racimo (consulte los mapas Bunch-No. vs \(z_{i}\) ), indicando como causa el ruido electrónico sincronizado inducido desde el entorno del acelerador. \(B_{1}\) y \(B_{2}\) están codificados en un estado activado/desactivado y, por lo tanto, \(z_{4}\) y \(z_{5}\) pueden usar un valor extremo región para "encendido" y mientras la perturbación de la línea de base está "apagada", pueden usar el resto del rango de valores para la codificación de una característica diferente. Como resultado, \(z_{4}\) también codifica la intensidad de eTOF3 mientras que \(z_{5}\) también codifica \(P_{13}\). La red usa la sexta dimensión de z para la otra etiqueta relacionada con el apuntamiento \(P_{02}\). La dependencia lineal de \(z_{5}\) frente a \(P_{13}\), combinada con la dependencia cruzada de \(z_{4}\) frente a \(P_{13}\), ahora se puede utilizar para determinar la variación de la posición espacial del haz, que también puede ser un parámetro importante para los experimentos. \(L_{0,1,2,3}\) están totalmente codificados en \(z_{7}\). Los componentes \(z_{8-11}\) solo influyen en la reconstrucción de forma mínima y, por lo tanto, se consideran no utilizados. Sin embargo, la reducción de la dimensionalidad del espacio latente aumenta la pérdida total, lo que da como resultado una codificación más complicada de las etiquetas hechas a mano.

Ejemplo de limpieza de datos: los datos sin procesar (gris) se reconstruyen a través de la red como se muestra en negro. Se descartan todos los aciertos aleatorios, se reduce el nivel de ruido y se reconstruye la señal de aviso. Una modificación del espacio latente permite eliminar el problema del intercalado y la eliminación de la perturbación de la línea de base (magenta).

La reconstrucción de los datos solo por la red elimina automáticamente todos los resultados aleatorios de los datos sin procesar. Además, el nivel de ruido de la línea de base se reduce considerablemente. Finalmente, con ambas partes de la red, el codificador se puede usar para obtener la representación 12D de las muestras individuales y, en consecuencia, se pueden limpiar selectivamente los datos comprometidos de todos estos efectos, como se muestra en la Fig. 4. Dado que el espacio latente se entiende la representación, uno puede simplemente cambiar \(z_{7}\) de 0.8 (que fue determinado por la red para lograr la mejor reconstrucción de esta muestra específica) al valor promedio de 0.0 y luego ejecutando el decodificador con este valor de \(z_{7}\) modificado es posible eliminar el efecto de entrelazado. Se puede usar un procedimiento similar (ver Información complementaria) para eliminar la perturbación de la línea de base.

Para aprovechar al máximo las altas tasas de repetición de las máquinas FEL con aceleradores superconductores, que emiten radiación FEL con propiedades de fotones altamente fluctuantes debido al modo de operación SASE, se necesita información sobre los parámetros esenciales en un solo disparo. Idealmente, esta información debería ser proporcionada por dispositivos de diagnóstico completamente independientes, que puedan funcionar en paralelo al experimento de usuario en ejecución. De esta manera, se puede habilitar el mejor análisis posible, incluso casi en tiempo real, lo que permite todas las posibilidades de clasificación de datos, agrupamiento y métodos similares, para revelar las dependencias de las propiedades de los fotones para el proceso físico bajo investigación. . Esto es especialmente importante para las técnicas experimentales hambrientas de fotones, como las mediciones de coincidencia, que se basan en la acumulación de una gran cantidad de eventos de interacción de un solo fotón. Se pueden evitar los efectos de dependencia borrosos o incluso disfrazados al promediar muestras de datos que cubren una variedad de diferentes valores de propiedades de fotones. OPIS en combinación con la red \(\beta\)-VAE entrenada puede proporcionar tal capacidad y, por lo tanto, permite el uso de la propiedad "longitud de onda" de FEL como un parámetro de clasificación independiente para cualquier análisis de datos experimentales. Los próximos pasos serán capacitar redes más generales. Los parámetros de operación de OPIS, es decir, las especies de gas objetivo, la presión de la cámara y los voltajes de retardo en los eTOF, se mantuvieron en valores fijos para los resultados que se presentan en este trabajo. Hemos registrado y registraremos espectros para una variedad de combinaciones de estos parámetros. Primero, las redes dedicadas serán entrenadas para diferentes parámetros de operación. En este caso, para cada modo de operación se puede utilizar una red específica para el análisis en línea. En segundo lugar, solo se entrenará una sola red para todos los parámetros de operación, lo que permitirá el uso de la misma red para todos los modos de operación. A continuación, se compararán estos dos enfoques.

Hemos demostrado que una red \(\beta\)-VAE optimizada es capaz de encontrar el principio básico subyacente de los datos de espectroscopia de tiempo de vuelo de fotoelectrones de alta dimensión sin ningún conocimiento a priori de una manera no supervisada. Se elimina el ruido de todos los datos sin procesar con una relación señal/ruido baja y se descartan los resultados aleatorios no correlacionados con los procesos de fotoionización observados. Como consecuencia, los espectros reconstruidos son de una calidad mucho mayor y, en ciertos casos, pueden mostrar muy claramente las características de los fotoelectrones que están oscurecidas en los datos sin procesar y no pueden procesarse fácilmente mediante métodos de análisis convencionales. La representación en el espacio latente cubre todas las principales propiedades físicas intrínsecas del espectro, proporcionando acceso directo a información esencial como la longitud de onda FEL de disparo único. El tiempo de inferencia de la red entrenada es rápido y, por lo tanto, se puede implementar como una herramienta en línea durante la medición de diagnóstico de fotones, proporcionando información crucial para los experimentos de los usuarios de FLASH en tiempo real. Esto permitirá o mejorará el análisis de datos sobre la marcha que ayuda a mejorar la eficiencia de un tiempo de haz. Por ejemplo, al monitorear la calidad de los datos en términos de estadísticas, para el efecto que se investiga, se puede optimizar el tiempo de registro y la evaluación de los hallazgos. Este análisis concomitante brinda al usuario la capacidad de adaptar las medidas sobre la marcha a lo largo de la campaña experimental. Además, cualquier análisis de datos posterior al experimento fuera de línea también se beneficiará de las etiquetas proporcionadas por la red \(\beta\)-VAE. En este sentido, la capacidad de aislar o eliminar ciertas propiedades de los datos poniendo a cero los valores de los VAE que representan esas propiedades puede ser muy útil para un análisis detallado y profundo del conjunto de datos.

Para mediciones precisas de longitud de onda con OPIS, se requiere una calibración del instrumento. En las campañas de puesta en servicio de OPIS, las funciones de conversión que asignan energía cinética a los valores de tiempo de vuelo medidos se han determinado empíricamente para cada configuración de voltaje de retardo. En estas mediciones de calibración, se conocía con precisión la energía del fotón o la energía cinética del electrón (ecuación (2)). Esto se ha logrado mediante mediciones simultáneas, junto con un espectrómetro de rejilla óptica como referencia, así como utilizando las capacidades de calibración intrínsecas mediante procesos Auger. Los electrones Auger se emiten con una energía cinética fija correspondiente a la diferencia de los dos orbitales electrónicos involucrados en la transición Auger y, por lo tanto, pueden servir como marcadores directos de energía cinética en el espectro TOF. Además, se pueden usar esquemas en los que la longitud de onda FEL se ajusta hasta que la posición TOF de una fotolínea de un orbital particular coincida con precisión con la posición de la línea Auger. Esto también determina la longitud de onda y, por lo tanto, define la energía cinética en la posición TOF para otras líneas de fotoelectrones en el mismo espectro. Se puede encontrar información más detallada sobre la calibración OPIS en Refs.9,10.

La Tabla 1 muestra el espacio de hiperparámetros que se exploró mientras se entrenaban las redes \(\sim\) 700. El tamaño del lote, el parámetro \(\beta\), la tasa de aprendizaje y las muestras por época se probaron a un valor fijo, así como dentro de un proceso de programación. Aparte de evaluar la pérdida total, que es una combinación de la pérdida de reconstrucción MSE y la pérdida de desenredado de divergencia KL del espacio latente, la evaluación de la red, con respecto a la interpretabilidad del espacio latente con las etiquetas hechas a mano, fue realizado a través del ajuste de mínimos cuadrados como se muestra en la Fig. 2. Para la pérdida de reconstrucción, también se probaron el error absoluto (AE) y la entropía cruzada binaria (BCE). Los componentes de z en la Fig. 2 (y el texto) están reordenados para una mejor legibilidad. En el caso del optimizador de descenso de gradiente estocástico (SGD), el impulso se probó de 0 a 0.9. Los 40 millones de muestras se dividen y mezclan aleatoriamente en 40 archivos hdf5 individuales, cada uno de los cuales contiene un millón de muestras. 33 de estos archivos se utilizan para entrenamiento, un millón de muestras como datos de validación durante el proceso de entrenamiento y los seis millones restantes para probar la red entrenada después. A efectos de carga de datos, una época se define como un paso de optimización en el que la red procesa un archivo, es decir, un millón de muestras. Durante el entrenamiento, la red continúa entrenando con el mismo millón de muestras durante un número fijo de épocas hasta que los datos se reemplazan por otro millón de muestras de otro archivo y así sucesivamente. La memorización de los datos, con respecto a una porción fija de un millón de muestras de los datos, solo se observa en redes muy profundas y también solo después de un par de miles de épocas. Debido a este efecto, los datos de entrenamiento en la memoria se reemplazan cada 10 épocas, lo que garantiza que no se produzca un sobreajuste, al mismo tiempo que permite una transferencia de datos rápida a la GPU que se utiliza para entrenar la red. Una indicación adicional de que esta forma de entrenamiento no compromete el resultado final es que no se observan cambios abruptos en la función de pérdida si el conjunto de datos se reemplaza después de 10 épocas. Si el número de épocas para los mismos datos se establece en 1, se puede interpretar que el proceso procesa todos los datos de entrenamiento de 33 millones de muestras cada 33 épocas. Los datos se normalizaron min-max, es decir, el rango de enteros verticales de 8 bits de [0,255] se transformó en valores flotantes en el intervalo [0,1].

El MLP para la corrección de fase de \(z_{0}\) y \(z_{1}\) tiene la siguiente arquitectura de red

mientras que la entrada es la fase y el objetivo de predicción viene dado por la posición TOF promedio derivada al ajustar los 4 espectros eTOF. Se entrenó durante 2000 épocas con 200k muestras, un tamaño de lote de 100 y una tasa de aprendizaje de \(10^{-5}\), mientras que se utilizaron la activación Mish y el optimizador Adam. Los datos no se normalizaron. La calidad de la predicción se midió en MSE.

Se probaron múltiples métodos para procesar los datos sin procesar de un solo disparo de manera sólida y eficiente. La comparación se hizo con respecto a qué tan bien concordaban los datos con \(\lambda _{FEL}\). Los mejores resultados se lograron mediante un procedimiento iterativo que solo analiza la región de interés, los canales TOF [600, 1000], correspondientes a la región de acercamiento en la Fig. 3c. En primer lugar, se establece un umbral de 0,2 (con respecto a los valores que se muestran en la Fig. 1) para determinar todas las posiciones máximas posibles en los cuatro eTOF (son posibles múltiples picos en un eTOF). Estas posiciones de pico son valores enteros de la(s) posición(es) máxima(s). En segundo lugar, se comparan las posiciones máximas de todos los detectores. Si hay más de un pico en la misma ventana de 20 canales TOF para múltiples detectores, se realiza un procesamiento adicional de estos picos. De lo contrario, si la amplitud de un pico es mayor (en un valor absoluto de 0,15), el procesamiento adicional solo se realiza en este único pico. Si no, el procesamiento continúa en todos los picos encontrados. Todas las posiciones de los picos restantes se optimizan calculando el centro de masa del pico (con precisión de punto flotante). Además, también se verificó si otros métodos de análisis, por ejemplo, las rutinas de ajuste de optimización por mínimos cuadrados, podrían ser más adecuados. Resulta que no hay ninguna ventaja al usar estos otros métodos, pero crean la desventaja de un gran aumento en el tiempo de computación. A continuación, se toma como resultado final el valor medio de todas las posiciones de pico determinadas.

Los conjuntos de datos utilizados y analizados durante el estudio actual, así como el código para el proceso de entrenamiento de la red neuronal, están disponibles del autor correspondiente a pedido razonable.

Kondratenko, AM & Saldin, EL Generación de radiación coherente por un haz de electrones relativista en un ondulador. Parte. Acelerar 10, 207–216 (1980).

CAS Google Académico

Zhirong, H. & Kwang-Je, K. Revisión de la teoría del láser de electrones libres de rayos X. física Rev. ST Acel. Vigas 10(3), 034801 (2007).

Artículo Google Académico

Ackermann, W. et al. Operación de un láser de electrones libres en el rango de longitud de onda desde el ultravioleta extremo hasta la ventana de agua. Nat. Fotónica 1, 336–342 (2007).

Artículo Google Académico

Sorokin, A. et al. Un monitor de gas de rayos X para láseres de electrones libres. J. Radiación de sincrotrón. 26, 1092–1100 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Tiedtke, K. et al. Detector de gas para láseres de rayos X. Aplicación J. física 103, 094511 (2008).

Artículo Google Académico

Grguraš, I. et al. Caracterización ultrarrápida de pulsos de rayos X en láseres de electrones libres. Nat. Fotónica 6, 852–857 (2012).

Artículo Google Académico

Frühling, U. et al. Cámara de racha de rayos X impulsada por campo THz de un solo disparo. Nat. Fotónica 3, 523–528 (2009).

Artículo Google Académico

Hartmann, N. et al. Estructura tiempo-energía de attosegundos de pulsos láser de electrones libres de rayos X. Nat. Fotónica 12, 215–220 (2018).

Artículo CAS Google Académico

Braune, M. et al. Un espectrómetro de fotoionización en línea no invasivo para FLASH2. J. Radiación de sincrotrón. 23, 10–20 (2016).

Artículo CAS PubMed PubMed Central Google Scholar

Braune, M. et al. Mediciones de longitud de onda en línea no invasivas en FLASH2 y punto de referencia actual. J. Radiación de sincrotrón. 25, 3–15 (2018).

Artículo PubMed PubMed Central Google Académico

Walter, P. et al. Conjunto de espectrómetros de electrones de resolución múltiple para futuros experimentos con láser de electrones libres. https://arxiv.org/abs/2103.07603.

Bishop, Christopher M. Reconocimiento de patrones y aprendizaje automático (Springer, Berlín, 2006).

Matemáticas Google Académico

Kramer, M. Análisis de componentes principales no lineales utilizando redes neuronales autoasociativas. AIChE J. 37(2), 233–243 (1991).

Artículo CAS Google Académico

An, J., & Cho, S. Detección de anomalías basada en codificador automático variacional usando probabilidad de reconstrucción. En Conferencia especial sobre IE, vol. 2 (2015).

Kingma, DP & Welling, M. Introducción a los codificadores automáticos variacionales. Encontró. Tendencias Mach. Aprender. 12(4), 307–392 (2019).

Artículo MATEMÁTICAS Google Académico

Higgins, I. et al.\(\beta\)-VAE: Aprendizaje de conceptos visuales básicos con un marco variacional restringido. En Publicado como documento de conferencia en ICLR 2017.

Burgess, C. et al. Comprender el desenredado en \(\beta\)-VAE. http://arxiv.org/abs/1804.03599.

Faatz, B. et al. Operación simultánea de dos láseres de electrones libres de rayos X blandos accionados por un acelerador lineal. Nuevo J. Phys. 18, 062002 (2016).

Artículo Google Académico

Wuilleumier, F. & Krause, MO Fotoionización de neón entre 100 y 2000 eV: procesos simples y múltiples, distribuciones angulares y secciones transversales de subcapas. física Rev. A 10, 242 (1974).

Artículo CAS Google Académico

Kullback, S. & Leibler, RA Sobre información y suficiencia. Ana. Matemáticas. Estadística 22(1), 79–86 (1951).

Artículo MathSciNet MATEMÁTICAS Google Académico

Metje, J. et al. URSA-PQ: Un instrumento bomba-sonda móvil y flexible para muestras en fase gaseosa en el láser de electrones libres FLASH. aplicación ciencia 10(21), 7882 (2020).

Artículo CAS Google Académico

Misra, D. Mish: una función de activación no monotónica autoregulada, enviada el 23 de agosto de 2019 (v1), última revisión el 13 de agosto de 2020 (v3). https://arxiv.org/abs/1908.08681.

Kingma, D. & Ba, J. Adam: Un método para la optimización estocástica. Enviado el 22 de diciembre de 2014 (v1), última revisión el 30 de enero de 2017 (v9). https://arxiv.org/abs/1412.6980.

Hastie, T., Tibshirani, R. & Friedman, J. Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción (Springer, Berlín, 2009).

Libro MATEMÁTICAS Google Académico

Descargar referencias

Los autores agradecen a DESY (Hamburgo, Alemania), miembro de la Asociación Helmholtz HGF, por la provisión de instalaciones experimentales. Partes de esta investigación se llevaron a cabo en FLASH2. GH agradece a Irina Higgins por las fructíferas discusiones sobre la aplicación, interpretación y presentación de \(\beta\)-VAE. Reconocen la asistencia y el apoyo del Laboratorio Conjunto de Métodos de Inteligencia Artificial para el Diseño de Experimentos (AIM-ED) entre Helmholtz-Zentrum Berlin für Materialien und Energie y la Universidad de Kassel. Financiado en parte por Innovationspool of the BMBF-Project: Data-X: reducción de datos para la ciencia de fotones y neutrones. Financiado en parte por el Proyecto BMBF: 05K20CBA. Agradecemos el apoyo financiero del Consejo Sueco de Investigación a través del programa Röntgen Ångström Cluster (RÅC) (No. 2019-06093).

Financiamiento de acceso abierto habilitado y organizado por Projekt DEAL.

Helmholtz Centre Berlin for Materials and Energy GmbH, Albert-Einstein-Strasse 15, 12489, Berlín, Alemania

Gregor Hartmann, Peter Feuer-Forson, David Meier, Felix Möller, Luis Vera Ramírez y Jens Viefhaus

Sincrotrón electrónico alemán (DESY), Notkestrasse 85, 22607, Hamburgo, Alemania

Gesa Goetzke, Stefan Düsterer, Markus Guehr, Kai Tiedtke y Markus Braune

Instituto de Física y Astronomía, Universidad de Potsdam, Karl-Liebknecht-Strasse 24/25, 14476, Potsdam-Golm, Alemania

Fabiano Palanca Y Markus Guehr

Sistemas integrados inteligentes, Universidad de Kassel, Wilhelmshöher Allee 73, 34121, Kassel, Alemania

david meier

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

GH y MB coescribieron el manuscrito con aportes de todos los autores. MB diseñó y encargó el instrumento OPIS. MB, SD, FL, KT y MG realizaron el experimento para registrar los datos utilizados. GH escribió el código \(\beta\)-VAE para este estudio. FL realizó el análisis de datos de los datos de la botella magnética. GH, GG, PF, LV, DM, FM, SD, MB y JV interpretaron y optimizaron la red \(\beta\)-VAE.

Correspondencia a Gregor Hartmann.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Hartmann, G., Goetzke, G., Düsterer, S. et al. Extracción de conocimiento del mundo real sin supervisión a través de codificadores automáticos variacionales desenredados para diagnóstico de fotones. Informe científico 12, 20783 (2022). https://doi.org/10.1038/s41598-022-25249-4

Descargar cita

Recibido: 21 junio 2022

Aceptado: 28 de noviembre de 2022

Publicado: 01 diciembre 2022

DOI: https://doi.org/10.1038/s41598-022-25249-4

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y Pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.

COMPARTIR