🤖
Aprendizaje Multitarea Equitativo para Redes de Acceso por Radio con IA
📝 Se presenta OWO-FMTL, un marco de aprendizaje multitarea justo para redes de acceso por radio habilitadas con IA. Utiliza dos bucles de aprendizaje para garantizar un rendimiento de inferencia equitativo a largo plazo entre usuarios heterogéneos que comparten recursos.
• Marco de aprendizaje en-línea con dos bucles para equidad
• cuantifica la equidad mediante alpha-justicia generalizada
• garantiza una disminución de la disparidad de rendimiento y es adecuado para despliegue en el borde de la red.
🤖
Asignación de Crédito a Posteriori para Agentes LLM de Horizonte Largo
📝 HCAPO es el primer marco que integra la asignación de crédito a posteriori en agentes basados en LLMs para tareas de múltiples pasos. Mejora la asignación de crédito al refinar los valores Q a nivel de paso y complementar las líneas base de valor en estados de decisión críticos.
• Supera a los métodos RL existentes en benchmarks como WebShop y ALFWorld
• logra mejoras de éxito del 7.7% y 13.8% respectivamente
• mejora la eficiencia de exploración y la escalabilidad en tareas complejas.
🤖
Reducción Generalizada a la Isotropía para Campos Neuronales Equivariantes Flexibles
📝 Este artículo presenta una reducción general que permite construir funciones invariantes a grupos en espacios producto heterogéneos. Establece una equivalencia de órbitas que simplifica el problema y la aplica a Campos Neuronales Equivariantes, eliminando restricciones estructurales previas.
• Proporciona un método para manejar acciones grupales en espacios producto
• la reducción es a la isotropía del subgrupo que actúa sobre un espacio
• extiende los Campos Neuronales Equivariantes a acciones grupales arbitrarias.
🤖
SPREAD: Destilación de Representaciones en Subespacios para Aprendizaje por Imitación a lo Largo de la Vida
📝 SPREAD es un marco de aprendizaje que preserva la geometría de las representaciones de tareas en el aprendizaje por imitación continua. Utiliza descomposición en valores singulares para alinear políticas en subespacios de bajo rango, mejorando la transferencia y evitando el olvido catastrófico.
• Alinea representaciones de políticas en subespacios de baja dimensión para preservar la geometría de la tarea
• emplea una estrategia de destilación guiada por confianza
• supera el estado del arte en el benchmark LIBERO.
🤖
Meta-aprendizaje por Refuerzo Multinivel con Curriculums Basados en Habilidades
📝 Se describe un procedimiento multinivel para comprimir Procesos de Decisión de Markov (MDPs) complejos, donde las políticas de un nivel se convierten en acciones en el nivel superior. Esto se enmarca en un curriculum learning para transferir habilidades entre problemas y niveles.
• Compresión jerárquica de MDPs para manejar complejidad
• las habilidades se transfieren entre diferentes problemas y niveles
• el curriculum learning organiza el proceso de aprendizaje para aumentar gradualmente la dificultad.
🤖
El Campo de Transición de Markov Temporal
📝 Se introduce el Campo de Transición de Markov Temporal (TMTF), una extensión del MTF que captura dinámicas de series temporales no estacionarias. Divide la serie en segmentos y calcula matrices de transición locales, creando una imagen con bandas horizontales que reflejan los cambios de régimen.
• Supera la limitación del MTF con dinámicas no estacionarias
• genera una imagen T x T con bandas que codifican la dinámica de cada segmento temporal
• útil como entrada para redes neuronales convolucionales en clasificación de series temporales.
💻
SoftJAX y SoftTorch: Potenciando Librerías de Diferenciación Automática con Gradientes Informativos
📝 SoftJAX y SoftTorch son librerías de código abierto que proporcionan versiones 'soft' (diferenciables) de funciones 'hard' (no diferenciables) en JAX y PyTorch. Ofrecen sustituciones para operaciones como clipping, lógica booleana y ordenamiento, facilitando la optimización basada en gradientes.
• Incluyen operadores elementwise
• métodos para lógica difusa y operadores por eje como sort o rank
• soportan estimación de gradientes straight-through
• hacen accesibles las relajaciones '
• soft'
• para programación diferenciable.
🤖
¿Son Necesarios los Codificadores Expresivos para la Generación de Grafos Discretos?
📝 El estudio presenta GenGNN, un marco de paso de mensajes modular para generación de grafos que desafía la necesidad de arquitecturas complejas. Con GenGNN, los modelos de difusión alcanzan alta validez en generación de grafos y moléculas con una velocidad de inferencia muy superior.
• Alcanza >
• 90% de validez en conjuntos de datos Tree y Planar con 2-5x más velocidad
• logra 99.49% de validez en generación de moléculas
• los estudios de ablación muestran la importancia de las conexiones residuales.
🤖
Compromisos entre Expresividad y Eficiencia en Modelos de Secuencia Híbridos
📝 Este artículo analiza teórica y empíricamente los modelos de secuencia híbridos (Transformers + SSM). Demuestra que los modelos no híbridos tienen limitaciones fundamentales en tareas sintéticas clave, mientras que los híbridos pequeños pueden resolverlas, logrando lo mejor de ambos mundos.
• Los modelos no híbridos requieren muchos parámetros o memoria para tareas como copia selectiva
• los híbridos construidos resuelven estas tareas eficientemente
• los híbridos aprendidos superan a modelos 6x más grandes y tienen mejor generalización.
🧬
Un Nuevo Modelo para la Selección de Características Basado en la Teoría de Conjuntos Aproximados Fuzzy en Estados Normal y Optimista en Sistemas de Información Híbridos
📝 Propone un nuevo modelo de selección de características (FSbuHD) que reformula el problema en optimización usando distancias combinadas y relaciones de equivalencia difusa, operando en modos normal y optimista para reducir el ruido y la complejidad en big data.
• Introduce FSbuHD
• un modelo que convierte la selección de características en un problema de optimización resoluble con metaheurísticas
• supera a métodos anteriores en datasets UCI al reducir la dimensionalidad y el ruido.
🧬
Cuantificación de Incertidumbre entre Dominios para Predicción Selectiva: Una Ablación Integral de Límites con Apuestas Informadas por Transferencia
📝 Presenta Transfer-Informed Betting (TIB), un método que mejora los límites de confianza en predicción selectiva al combinar desigualdades de concentración y apuestas, logrando garantías más estrictas en contextos de pocos datos mediante transferencia entre dominios.
• TIB domina a métodos estándar cuando los dominios coinciden
• evalúa 9 familias de límites en 4 benchmarks
• logrando mejoras de hasta 5.4x en cobertura y aplicándose a sistemas de caché con garantías de riesgo.
🧬
Cuantificación de la Memorización y los Riesgos de Privacidad en Modelos Genómicos del Lenguaje
📝 Desarrolla un marco de evaluación de privacidad multi-vector para modelos genómicos del lenguaje, integrando detección por perplejidad, extracción de secuencias 'canary' e inferencia de pertenencia para medir riesgos de memorización.
• Revela que la memorización varía según la arquitectura y el entrenamiento
• ningún vector de ataque por sí solo captura el riesgo completo
• abogando por auditorías multi-vector como práctica estándar.
🧬
Descubriendo un Boleto Ganador de Lotería con Compuertas de Bernoulli Relajadas Continuamente
📝 Propone un enfoque totalmente diferenciable para descubrir Strong Lottery Tickets (SLTs) usando compuertas de Bernoulli relajadas, optimizando solo los parámetros de enmascaramiento con pesos congelados y regularización ℓ0.
• Logra hasta un 90% de esparcidad con pérdida mínima de precisión en CNN y Vision Transformers
• casi duplicando la esparcidad de métodos anteriores como edge-popup.
🧬
La Doble Penalización de los Modelos Mezcla de Expertos en Inferencia: Fragmentación por Reutilización y su Impacto en el Rendimiento
📝 Identifica una 'doble penalización' en MoE durante inferencia: fragmentación de micro-lotes y reducción de memoria para caché KV, formalizada con la desigualdad qs que predice desventajas estructurales frente a modelos densos.
• En DeepSeek-V3 con contexto largo
• un modelo denso equivalente tiene 4.5x más rendimiento
• sugiere que MoE es óptimo solo para entrenamiento y la destilación a denso mejora la inferencia.
🧬
Nivel de Detalle Semántico: Representación del Conocimiento Multi-Escala mediante Difusión del Núcleo de Calor en Variedades Hiperbólicas
📝 Introduce Semantic Level of Detail (SLoD), un operador de zoom continuo en el disco de Poincaré usando difusión del núcleo de calor, que permite navegar entre niveles de abstracción con detección automática de límites de escala.
• Demuestra coherencia jerárquica con error acotado
• en WordNet
• los límites detectados se alinean con la profundidad taxonómica (τ=0.79)
• revelando niveles de abstracción sin supervisión.
🧬
MAcPNN: Aprendizaje Mutuamente Asistido en Flujos de Datos con Dependencia Temporal
📝 Propone Mutual Assisted Learning, un paradigma descentralizado donde dispositivos IoT con cPNN se asisten ante cambios de concepto, reduciendo comunicación frente a Federated Learning y mejorando rendimiento.
• MAcPNN usa Continuous Progressive Neural Networks con cuantización
• supera a enfoques tradicionales en streams sintéticos y reales al aprender continuamente y reutilizar conocimiento entre nodos.
🧬
MAPLE: Elevando el Razonamiento Médico del Consenso Estadístico a la Alineación Basada en Procesos
📝 Introduce un paradigma de entrenamiento que integra modelos de recompensa por proceso médico con TTRL, reemplazando el voto mayoritario por supervisión alineada con expertos para mejorar el razonamiento clínico.
• MAPLE supera consistentemente a TTRL estándar y selección PRM en cuatro benchmarks
• demostrando que guiar con corrección médica estructurada es clave para IA médica fiable y escalable.
🧬
El Acoplamiento Interno: Emparejamiento de Flujos mediante Flujos Normalizadores Destilados
📝 Propone Normalized Flow Matching (NFM), que destila acoplamientos cuasi-deterministas de flujos normalizadores pre-entrenados para entrenar modelos de flujo estudiantes, mejorando el rendimiento y superando al profesor AR-NF.
• NFM supera a modelos entrenados con acoplamientos independientes u OT
• logrando lo mejor de ambos mundos: flexibilidad en inferencia y calidad generativa superior gracias a la destilación.
🧬
Una Medida de Planicie Precisa para Estimar la Capacidad de Generalización de Modelos CNN
📝 Desarrolla una medida de planicie exacta y fiel a la arquitectura CNN, derivando una expresión cerrada para la traza del Hessiano en capas convolucionales con pooling promedio global y clasificador lineal.
• La medida considera simetrías de escala e interacciones de filtros
• muestra ser una herramienta robusta para evaluar y comparar la generalización en CNNs entrenadas en benchmarks de imagen.
🤖
¿Cuándo reentrenar después de un cambio de concepto?: Una prueba basada únicamente en datos sobre la suficiencia del tamaño de los datos posteriores al cambio
📝 Propone CALIPER, una prueba solo con datos que estima el tamaño de muestra post-cambio necesario para reentrenar de forma estable, explotando la dependencia de estado en flujos de datos.
• Agnóstico al detector/modelo
• Bajo coste
• Supera tamaños fijos
• Cierra brecha entre detección de cambio y adaptación.
🤖
Dos maestros mejor que uno: Aprendizaje automático científico distribuido co-guiado por hardware y física
📝 EPIC, un framework distribuido para SciML que realiza codificación local ligera y decodificación consciente de la física, reduciendo costes de comunicación y manteniendo fidelidad física.
• Reduce latencia 8.9x y energía 33.8x
• Mejora fidelidad
• Usa atención cruzada
• Validado en testbed y OpenFWI.
🤖
SCALAR: Aprendizaje y composición de habilidades mediante planificación simbólica guiada por LLM y base de RL profunda
📝 Marco bidireccional que acopla planificación con LLM y RL a través de una biblioteca de habilidades aprendidas, refinando especificaciones iterativamente con retroalimentación de ejecución.
• Mejora robustez a errores iniciales
• 88.2% recolección de diamantes en Craftax
• 1.9x mejora sobre línea base.
🤖
Sim2Act: Aprendizaje robusto de simulación a decisión mediante calibración adversarial y perturbación relativa al grupo
📝 Framework robusto que aborda la robustez del simulador y la política mediante calibración adversarial y estrategia de perturbación relativa al grupo para estabilizar el aprendizaje.
• Re-ponderación de errores en pares estado-acción críticos
• Evita políticas demasiado conservadoras
• Mejora estabilidad en cadenas de suministro.
🤖
Expertos dinámicos multiperiodo para predicción de series temporales en línea
📝 DynaME, un framework híbrido que maneja cambios de concepto recurrentes y emergentes mediante comités de expertos y detección de incertidumbre.
• Distingue entre deriva recurrente y emergente
• Se adapta dinámicamente
• Supera líneas base en múltiples datasets.
🤖
Aprendiendo decodificación adaptativa de LLM
📝 Introduce adaptadores ligeros de decodificación entrenados con RL para seleccionar estrategias de muestreo de forma dinámica según la dificultad y recursos disponibles.
• Adaptación a nivel de secuencia y token
• Mejora equilibrio precisión-presupuesto
• Hasta +10.2% Pass@1 en MATH.
🤖
Auto-atención exclusiva
📝 Modificación de la autoatención que restringe la atención a información ortogonal al vector de valor del token, mejorando el modelado de contexto.
• Mejora consistente en modelado de lenguaje
• Mayores ganancias con secuencias largas
• Escala hasta 2.7B parámetros.
🤖
Optimización híbrida basada en PPO para computación vehicular en el borde semántica asistida por RIS
📝 Propone un framework VEC consciente de semántica asistido por RIS, optimizando ratios de descarga, símbolos semánticos y fases RIS mediante PPO y LP.
• Reduce latencia 40-50% frente a GA/QPSO
• Escalable a 30 vehículos
• Enfoque de dos niveles.
🤖
No todas las noticias son iguales: Sentimiento condicionado por tema y evento de LLMs ajustados para la predicción del precio del aluminio
📝 Genera puntuaciones de sentimiento mensual de titulares en inglés y chino, integrándolas con datos tabulares para mejorar la predicción de precios del aluminio.
• LSTM con sentimiento mejora Sharpe de 0.23 a 1.04 en alta volatilidad
• Análisis de fuentes
• temas y tipos de evento.
🤖
Superando la supresión de acciones válidas en algoritmos de gradiente de política sin enmascarar
📝 Identifica que el entrenamiento sin máscaras suprime acciones válidas en estados no visitados debido al compartir parámetros, y prueba un límite de decaimiento exponencial.
• La regularización de entropía intercambia protección por eficiencia
• Validado en Craftax y MiniHack
• El enmascaramiento elimina este problema.
🔬
Predicción Probabilística del Factor de Histéresis para Baterías de Vehículos Eléctricos con Ánodos de Grafito que Contienen Silicio
📝 Este trabajo introduce un enfoque basado en datos para la predicción probabilística del factor de histéresis en baterías con ánodos de silicio-grafito, abordando los desafíos en la estimación del estado de carga (SoC). Se propone un marco de armonización de datos y se evalúan modelos de aprendizaje estadístico y profundo, considerando la eficiencia computacional y la cuantificación de incertidumbres.
• Enfoque basado en datos para la predicción de histéresis. Armonización de datos de ciclos de conducción heterogéneos. Evaluación de la generalizabilidad en modelos de vehículos no vistos mediante reentrenamiento y fine-tuning.
🔬
Desacoplando Razonamiento y Confianza: Resucitando la Calibración en el Aprendizaje por Refuerzo a partir de Recompensas Verificables
📝 El artículo aborda la degeneración de la calibración en modelos de lenguaje grandes (LLMs) cuando se entrena con RLVR, donde se vuelven excesivamente confiados en respuestas incorrectas. Proponen DCPO, un framework que desacopla los objetivos de razonamiento y calibración para mitigar este problema.
• Identificación de conflicto de gradientes entre precisión y calibración. Framework DCPO que desacopla objetivos. Mejora la calibración sin sacrificar precisión
• mitigando el exceso de confianza.
🔬
Expansión de Características Causalmente Suficientes y Necesarias para el Aprendizaje Incremental de Clases
📝 Se propone un método de regularización basado en Probabilidad de Necesidad y Suficiencia (PNS) para guiar la expansión de características en el aprendizaje incremental de clases (CIL). Aborda las correlaciones espurias intra-tarea e inter-tarea que causan colisiones de características y olvido catastrófico.
• Uso de PNS extendido a CIL (CPNS) para medir completitud causal y separabilidad. Generador contrafactual de doble alcance basado en redes gemelas. Método plug-and-play que mitiga la colisión de características.
🔬
Código Incorrecto, Estructura Correcta: Aprendiendo Representaciones de Netlists a partir de RTL Imperfecto Generado por LLM
📝 Se propone un framework de aumento y entrenamiento de datos que explota RTL imperfecto generado por LLM para aprender representaciones de netlists. A pesar de la incorrección funcional, las netlists sintetizadas conservan patrones estructurales indicativos de la funcionalidad prevista.
• Observación clave: LLMs generan RTL con estructura útil aunque funcionalmente incorrecto. Pipeline completo desde generación de código hasta tareas posteriores. Supera la escasez de datos etiquetados en representación de circuitos.
🔬
GIAT: Un Transformer de Atención Geológicamente Informada para Identificación de Litología
📝 Se propone GIAT, un transformer que integra conocimiento geológico previo en el mecanismo de atención para mejorar la identificación de litología a partir de registros de pozos. Utiliza filtros CSC para generar una matriz relacional geológicamente informada que guía la autoatención.
• Nuevo mecanismo de sesgo de atención con conocimiento geológico. Logra hasta 95.4% de precisión. Mayor fidelidad interpretativa y predicciones geológicamente coherentes.
🔬
Mejores Cotas para el Problema de Expertos Distribuidos
📝 Se estudia el problema de expertos distribuidos con n expertos en s servidores durante T pasos. Se presenta un protocolo que logra un equilibrio entre el regret y la comunicación, mejorando trabajos anteriores mediante cotas más ajustadas.
• Protocolo con regret ~ 1/(T·polylog(nsT)). Uso de comunicación de O(n/R^2 + s/R^2)·max(s^{1-2/p}
• 1)·polylog(nsT) bits. Mejora con respecto a trabajos previos.
🔬
Latent-DARM: Uniendo Modelos de Difusión Discreta y Autoregresivos para Razonamiento
📝 Se introduce Latent-DARM, un framework de comunicación en espacio latente que combina modelos de difusión discreta (planificadores) y modelos autoregresivos (ejecutores) para mejorar el razonamiento en tareas matemáticas, científicas y de sentido común.
• Puente entre DDLM y ARM en espacio latente. Mejora la precisión en benchmarks como DART-5 y AIME2024. Utiliza menos del 2.2% del presupuesto de tokens de modelos SOTA.
🔬
GNN: Dos Conjuntos de Prototipos para Mejorar el Rendimiento de GNN
📝 Se presenta P^2GNN, una técnica plug-and-play que utiliza dos conjuntos de prototipos para optimizar el paso de mensajes en GNNs. Los prototipos proporcionan contexto global y efecto de eliminación de ruido, mejorando el rendimiento en tareas de recomendación y clasificación de nodos.
• Prototipos como vecinos universalmente accesibles (contexto global). Alineación de mensajes a prototipos agrupados (eliminación de ruido). Mejor rendimiento en 18 datasets
• incluyendo comercio electrónico.
🔬
El Transformer de Radiofrecuencia para Separación de Señales
📝 Se presenta un método de separación de señales basado en transformer que aprende un tokenizador discreto para la señal de interés y se entrena con pérdida de entropía cruzada. Supera al MSE convencional y logra una reducción de 122x en BER en mezclas de RF.
• Tokenizador basado en SoundStream con FSQ. Entrenamiento con entropía cruzada supera a MSE. Generalización zero-shot a interferencias no vistas. Aplicable a otros dominios científicos.
🔬
Aprendizaje por Refuerzo Multi-Agente Estratégicamente Robusto con Aproximación Lineal de Funciones
📝 Se propone RQRE-OVI, un algoritmo de iteración de valor optimista para calcular el Equilibrio de Respuesta Cuantal Sensible al Riesgo (RQRE) en juegos de Markov con aproximación lineal de funciones. Ofrece un equilibrio entre rendimiento esperado y robustez.
• RQRE proporciona una solución única y suave. Análisis de regret con escalamiento en parámetros de racionalidad y sensibilidad al riesgo. Mapa de política Lipschitz continuo y robustez mejorada bajo cross-play.
🤖
Más allá del entrenamiento en tiempo de prueba: Aprendiendo a razonar mediante control óptimo eficiente en hardware
📝 Introduce la capa Test-Time Control (TTC) que realiza planificación LQR de horizonte finito sobre estados latentes, integrando el control óptimo como un componente arquitectónico para mejorar el razonamiento en modelos de lenguaje.
• Mejoras de hasta +27.8% en MATH-500 y 2-3x Pass@8 en AMC/AIME
• utiliza un solucionador LQR eficiente implementado en CUDA
• permite planificación antes de la predicción sin aumentar el costo en inferencia.
🤖
Razonamiento eficiente con costo fijo en tiempo de prueba mediante priors de atención conscientes de longitud y entrenamiento consciente de ganancia
📝 Propone dos componentes solo para entrenamiento: un prior de atención por alineación de posición difusa (RPA) y un controlador de ganancia (Guardian) que mejoran la generalización sin aumentar el costo en inferencia.
• Reduce la entropía cruzada en validación sin cambios de latencia
• el prior se añade como bias por cabeza en inferencia sin costo adicional
• enfoque fundamentado en MAP con regularización KL.
🧬
Generalización transductiva mediante transporte óptimo y su aplicación a la clasificación de nodos en grafos
📝 Establece nuevas cotas de generalización basadas en representaciones y transporte óptimo, que son computables y correlacionan con el error empírico en clasificación de nodos con GNN.
• Cotas expresadas en distancias de Wasserstein
• revela el trade-off entre concentración intra-clase y separación inter-clase
• código disponible.
🧬
DendroNN: Redes neuronales dendrocéntricas para clasificación energéticamente eficiente de datos basados en eventos
📝 Introduce DendroNN, una red que imita mecanismos dendríticos para detectar secuencias de spikes como características espacio-temporales, con una fase de reconexión sin gradientes.
• Hasta 4x más eficiencia que hardware neuromórfico SOTA
• arquitectura asíncrona con mecanismo de rueda de tiempo
• adecuada para computación basada en eventos.
🔒
Calibración de mediciones guiada por proxies
📝 Propone un marco para corregir errores sistemáticos en variables de resultado usando variables proxy, modelando el proceso generativo con gráficos causales y autoencoders variacionales.
• Separa latentes de contenido y sesgo
• evaluado en datos sintéticos
• semi-sintéticos y un caso real de desastres
• permite estimar el efecto del sesgo.
🧬
Un teorema de comparación gaussiana para la dinámica de entrenamiento en aprendizaje automático
📝 Conecta la evolución de modelos entrenados con datos de mezcla gaussiana a un sistema dinámico sustituto más analizable, basado en el teorema de comparación de Gordon.
• Prueba la validez de expresiones de campo medio dinámico (DMF)
• sugiere un esquema de refinamiento iterativo
• aplicado al entrenamiento de un perceptrón.
🤖
Reward-Zero: Mecanismos de recompensa implícita impulsados por incrustaciones de lenguaje para aprendizaje por refuerzo
📝 Introduce Reward-Zero, una función de recompensa implícita que usa incrustaciones de lenguaje para generar señales de progreso densas y alineadas semánticamente en RL.
• Mejora exploración
• estabiliza entrenamiento y generaliza
• acelera convergencia frente a PPO
• código será liberado.
🔒
TA-GGAD: Modelo de grafos adaptativo en tiempo de prueba para detección generalista de anomalías en grafos
📝 Identifica el problema de desasortatividad de anomalías (ADAD) y propone un modelo fundacional de grafos para detección de anomalías con generalización cross-dominio.
• Logra SOTA en catorce grafos reales
• solo requiere una fase de entrenamiento
• código disponible.
💻
Visualización 3D interactiva de predicciones de rugosidad superficial en fabricación aditiva: Un marco basado en datos
📝 Marco basado en datos para predecir rugosidad superficial (Ra) en fabricación aditiva usando parámetros de impresión y ángulo de inclinación, con visualización 3D interactiva.
• 1566 mediciones
• perceptrón multicapa y GAN condicional para aumentar datos
• interfaz web para planificación de procesos.
🔒
Democratizando la IA clínica mediante condensación de datasets para modelos clínicos clásicos
📝 Extiende la condensación de datasets a modelos no diferenciables como árboles de decisión y regresión de Cox, permitiendo compartir datos sintéticos con privacidad diferencial.
• Marco de optimización de orden cero con privacidad diferencial
• preserva utilidad del modelo
• aplicado a seis datasets clínicos.
🤖
Un Enfoque de Control Óptimo para el Entrenamiento de Transformers
📝 Desarrolla un enfoque riguroso de teoría de control óptimo para el entrenamiento de Transformers, modelando la arquitectura como un sistema de partículas controlado y estableciendo la existencia de políticas globalmente óptimas.
• Modela Transformers como sistema de partículas McKean-Vlasov
• lo eleva a MDP completamente observable
• prueba existencia de políticas óptimas globales
• propone entrenamiento triplemente cuantificado
• establece estabilidad y consistencia empírica.
🤖
Enrutamiento sin Olvido
📝 Introduce Routing without Forgetting (RwF), una arquitectura Transformer con capas de recuperación asociativa basadas en energía que genera prompts dinámicos para aprendizaje continuo en línea sin identificadores de tarea.
• Usa capas tipo Hopfield para recuperación asociativa en un paso
• supera métodos basados en prompts en benchmarks como Split-ImageNet-R
• funciona en régimen de few-shot y flujo de datos no estacionario.
🤖
Hacia la Comprensión de la Convergencia de Adam en Polinomios Altamente Degenerados
📝 Investiga las propiedades de autoconvergencia de Adam en polinomios altamente degenerados, demostrando convergencia lineal local y superando a GD y Momentum.
• Identifica clase de funciones donde Adam converge sin schedulers
• prueba condiciones de estabilidad asintótica
• muestra aceleración por desacoplamiento de momentos
• caracteriza diagrama de fases con tres regímenes.
🔒
Privacidad Diferencial Variacional No Paramétrica mediante Recorte de Parámetros de Inserción
📝 Introduce una estrategia de recorte de parámetros derivada de minimizar la cota superior de la divergencia de Rényi para mejorar la privacidad en modelos de lenguaje con privacidad diferencial variacional no paramétrica.
• Recorte de media
• varianza y pesos de mezcla basado en teoría
• logra cotas más ajustadas de divergencia Rényi
• mejora privacidad y rendimiento en tareas posteriores
• mejora el equilibrio privacidad-utilidad.
🧬
Capacidad de Memorización de Redes Neuronales Profundas ReLU Caracterizada por Ancho y Profundidad
📝 Caracteriza la capacidad de memorización de redes ReLU, estableciendo cotas superiores e inferiores óptimas en términos de ancho y profundidad para memorizar N puntos con separación δ.
• Construcción que logra W²L² = O(N log(δ⁻¹))
• prueba cota inferior Ω(N log(δ⁻¹))
• caracteriza trade-off entre ancho y profundidad
• óptimo salvo factores logarítmicos.
💻
Algoritmos MM para NMF Tradicional y Convexa con Funciones de Costo Tweedie y Binomial Negativa y Evaluación Empírica
📝 Desarrolla un marco unificado para NMF tradicional y convexa bajo modelos Tweedie y Binomial Negativa, derivando reglas de actualización multiplicativas mediante MM.
• Nuevas actualizaciones para NMF convexa con Poisson y NegBin
• implementación unificada en R (nmfgenr)
• evaluación empírica en datos genómicos y de texto
• muestra impacto del modelo de ruido en la recuperación.
🧬
Aprendiendo la Organización Jerárquica en Redes Cerebrales para el Diagnóstico de Trastornos Cerebrales
📝 Propone BrainHO, que aprende dependencias jerárquicas en redes cerebrales sin subredes predefinidas, usando atención jerárquica y restricciones de ortogonalidad para mejorar el diagnóstico.
• Atención jerárquica para agregar nodos en organizaciones
• pérdida de ortogonalidad para diversidad
• restricciones de consistencia jerárquica
• supera estado del arte en ABIDE y REST-meta-MDD
• identifica biomarcadores interpretables.
🔬
Síntesis de Imágenes del Subsuelo Guiada por Registros de Pozos a partir de Datos Petrográficos Dispersos usando cGANs
📝 Usa cGANs condicionadas a porosidad de registros de pozos para sintetizar imágenes de secciones delgadas de rocas carbonatadas, llenando vacíos entre muestras discretas.
• Entrenado con 5000 subimágenes de 15 muestras
• genera imágenes consistentes para porosidad 0.004-0.745
• 81% de precisión dentro del 10% de la porosidad objetivo
• útil para caracterización de yacimientos.
📊
FreqCycle: Un Método de Análisis Tiempo-Frecuencia Multiescala para Pronóstico de Series Temporales
📝 Propone FreqCycle, que combina extracción de patrones periódicos en dominio temporal y mejora de energía en frecuencias medias-altas mediante filtros aprendibles y ponderación adaptativa.
• Módulo FECF para baja frecuencia
• módulo SFPL para frecuencias medias-altas
• versión jerárquica MFreqCycle para multiperiodicidad acoplada
• estado del arte en precisión y velocidad.
📄
⚖️ No hay evaluación sin representación justa: Impacto del sesgo de etiqueta y selección en la evaluación, rendimiento y mitigación de modelos de clasificación
📝 Analiza empíricamente el impacto del sesgo de etiqueta y selección en la evaluación, rendimiento y mitigación de sesgos en clasificación, proponiendo un marco para modelar mundos justos y sus contrapartes sesgadas.
• Introduce framework para inyectar sesgo controlado
• muestra ausencia de trade-off fairness-exactitud en test sin sesgo
• el tipo de sesgo afecta la eficacia de métodos de mitigación
• llama a evaluaciones más representativas.
🤖
GNN para Detección de Anomalías en Series Temporales: Un Framework de Código Abierto y una Evaluación Crítica
📝 Este artículo presenta un framework de código abierto para la detección de anomalías en series temporales usando GNNs, facilitando la experimentación reproducible. Los autores evalúan varias arquitecturas basadas en GNN y demuestran que no solo mejoran el rendimiento de detección, sino que también ofrecen ganancias significativas en interpretabilidad.
• Framework de código abierto para TSAD con GNNs
• Las GNNs mejoran el rendimiento y la interpretabilidad
• Las GNNs basadas en atención son robustas cuando la estructura del grafo es incierta
• Reflexión crítica sobre métricas y estrategias de umbralización comunes.
🤖
Sobre el Olvido Catastrófico en el Ajuste Fino Eficiente en Parámetros Basado en Descomposición de Bajo Rango
📝 Este estudio empírico investiga el olvido catastrófico en el ajuste fino eficiente en parámetros (PEFT) basado en descomposición de bajo rango para el aprendizaje secuencial. Los resultados muestran que el olvido está fuertemente influenciado por la geometría y parametrización del subespacio de actualización, y que ciertas descomposiciones pueden mitigarlo.
• La geometría del subespacio de actualización influye en el olvido catastrófico
• Las descomposiciones tensoriales (LoRETTA) mitigan el olvido
• Las parametrizaciones estructuralmente alineadas (WeGeFT) preservan representaciones pre-entrenadas
• Ofrece orientación práctica para estrategias de adaptación en entornos secuenciales.
🤖
ActiveUltraFeedback: Generación Eficiente de Datos de Preferencia usando Aprendizaje Activo
📝 Se introduce ACTIVEULTRAFEEDBACK, un pipeline de aprendizaje activo que utiliza estimaciones de incertidumbre para identificar dinámicamente las respuestas más informativas para la anotación en RLHF. El método demuestra que puede lograr resultados comparables o superiores con hasta una sexta parte de los datos anotados en comparación con las líneas base estáticas.
• Pipeline de aprendizaje activo modular para generar datos de preferencia
• Introduce los métodos DRTS y DELTAUCB
• Reduce significativamente la cantidad de datos de anotación necesarios (hasta 1/6)
• Código y conjuntos de datos disponibles públicamente.
🧬
Operador Neuronal Informado por la Física para el Modelado Predictivo de Campos de Fase Paramétricos
📝 Este trabajo desarrolla PF-PINO, un framework de operador neuronal informado por la física para aprender PDEs de campo de fase paramétricas. Al incorporar los residuos de las ecuaciones rectoras en la función de pérdida, el método mejora significativamente la precisión, la capacidad de generalización y la estabilidad a largo plazo en comparación con el FNO convencional.
• Framework PF-PINO para modelado de campos de fase paramétricos
• Incorpora restricciones físicas en el entrenamiento
• Supera al FNO convencional en precisión y generalización
• Validado en corrosión electroquímica
• solidificación dendrítica y descomposición espinodal.
🤖
Mousse: Rectificando la Geometría de Muon con Precondicionamiento Consciente de la Curvatura
📝 Se propone Mousse, un nuevo optimizador que reconcilia la estabilidad estructural de los métodos espectrales con la adaptabilidad geométrica del precondicionamiento de segundo orden. Mousse opera en un sistema de coordenadas blanqueado inducido por estadísticas factorizadas de Kronecker y supera a Muon en modelos de lenguaje de hasta 800M de parámetros.
• Nuevo optimizador Mousse que mejora Muon
• Aborda la limitación de asumir un paisaje de optimización isotrópico
• Utiliza precondicionamiento estilo Shampoo con actualización espectral
• Logra ~12% de reducción en pasos de entrenamiento con sobrecarga computacional insignificante.
🤖
Un Enfoque de Destilación de Conocimiento Federado Guiado por Múltiples Prototipos en Sistema de Computación en el Borde de Múltiple Acceso Habilitado por AI-RAN
📝 Se propone MP-FedKD, un enfoque de destilación de conocimiento federado guiado por múltiples prototipos para sistemas MEC habilitados por AI-RAN. El método integra autodestilación de conocimiento y una estrategia de múltiples prototipos para abordar el problema de datos no-IID y la pérdida de información, superando a las líneas base de vanguardia.
• Aborda la heterogeneidad de datos (no-IID) en aprendizaje federado
• Utiliza autodestilación de conocimiento y múltiples prototipos
• Introduce CHAC (clustering aglomerativo jerárquico condicional) y un esquema de alineación de prototipos
• Diseña una nueva función de pérdida LEMGP.
🧬
Cotas Superiores de Generalización para Osciladores Neuronales
📝 Este estudio deriva cotas superiores de generalización PAC para osciladores neuronales (una EDO de segundo orden seguida de un MLP) utilizando el marco de complejidad de Rademacher. Los resultados teóricos muestran que los errores de estimación crecen polinomialmente con el tamaño del MLP y la longitud del tiempo, evitando la maldición de la complejidad paramétrica.
• Derivación teórica de cotas de generalización para osciladores neuronales
• Los errores crecen polinomialmente (no exponencialmente) con la complejidad
• Validación numérica en un sistema no lineal de Bouc-Wen
• La regularización de constantes de Lipschitz mejora la generalización.
💻
Un Framework Híbrido Cuántico-Clásico para la Predicción de la Volatilidad Financiera Basado en Máquinas de Nacimiento de Circuitos Cuánticos
📝 Se propone un framework híbrido cuántico-clásico para la predicción de la volatilidad financiera, que combina LSTM con una Quantum Circuit Born Machine (QCBM). El modelo, evaluado en datos de alta frecuencia del SSE Composite Index y CSI 300 Index, supera a la línea base puramente clásica de LSTM en múltiples métricas clave.
• Framework híbrido que combina LSTM y QCBM
• La QCBM actúa como un módulo a priori para guiar la predicción
• Evaluado en datos financieros reales de alta frecuencia
• Supera al LSTM clásico en MSE
• RMSE y QLIKE.
🤖
Explotando la Puntuación de Canales Consciente de las Etiquetas para la Poda Adaptativa de Canales en Aprendizaje Dividido
📝 Se propone ACP-SL, un esquema de aprendizaje dividido con poda adaptativa de canales para reducir la sobrecarga de comunicación. Incluye un módulo de puntuación de importancia de canales consciente de las etiquetas (LCIS) y un módulo de poda adaptativa (ACP) que comprime los datos 'smashed', logrando una mayor precisión y una reducción en las rondas de entrenamiento.
• Reduce la sobrecarga de comunicación en Split Learning
• Módulo LCIS para puntuar la importancia de los canales
• Módulo ACP para podar canales menos importantes
• Supera a los esquemas de referencia en precisión y reduce las rondas de entrenamiento.
🧬
Optimización Bayesiana Informada por la Teoría de la Información sobre el Simplex de Probabilidad
📝 Se presenta αα-GaBO, una nueva familia de algoritmos de optimización bayesiana para el simplex de probabilidad. El método se basa en la geometría de la información para construir núcleos de Matérn que reflejan la geometría del simplex y optimizadores geométricos para la función de adquisición, mostrando un mayor rendimiento en comparación con los enfoques euclidianos restringidos.
• Algoritmos de optimización bayesiana para el simplex de probabilidad
• Utiliza geometría de la información para construir núcleos de Matérn
• Introduce una familia paramétrica de optimizadores geométricos
• Validado en funciones de referencia
• mezclas de clasificadores y una tarea de control robótico.
🤖
Un Buen Razonamiento Produce Buenas Demostraciones: Supervisión Implícita de Calidad de Razonamiento a través de Aprendizaje por Refuerzo en Contexto
📝 Mejora el razonamiento en LLMs asignando mayor peso a soluciones de alta calidad durante el entrenamiento, superando la limitación de RLVR que trata por igual todas las soluciones correctas aunque tengan razonamientos defectuosos.
• Introduce Evidence Gain para medir utilidad de demostraciones
• utiliza aprendizaje en contexto del modelo para reweighting implícito
• mejora precisión y calidad de razonamiento en benchmarks matemáticos.
🤖
Corrección de Modelos Basados en Transformers con Pseudoproyector Suavizante
📝 Introduce un pseudoproyector como modificador ligero que reduce sensibilidad al ruido suprimiendo direcciones inducidas por contenido irrelevante, inspirado en métodos multigrid.
• Mejora dinámicas de entrenamiento y robustez en clasificación de texto
• no altera arquitectura base
• demostrado en benchmarks sintéticos y tareas reales con transformadores.
🤖
Marco Unificado Jerárquico Multitarea y Multifidelidad para Modelado Sustituto Eficiente en Datos para Manufactura
📝 Desarrolla un framework jerárquico que combina aprendizaje multitarea y modelado multifidelidad para aprovechar similitudes entre tareas y datos de diferente calidad.
• Mejora precisión hasta 23% sobre métodos estado del arte
• maneja número arbitrario de tareas y niveles de fidelidad
• validado en predicción de forma de superficies de motores.
🤖
Enfoque Basado en Grafos para Predicción de Demanda de Espectro usando Redes de Atención Jerárquica
📝 Propone HR-GAT, un modelo de atención jerárquica para predecir demanda de espectro usando datos geoespaciales, manejando patrones complejos y autocorrelación espacial.
• Mejora precisión predictiva en 21% sobre 8 modelos base
• probado en cinco ciudades canadienses
• supera problemas de generalización de modelos estándar.
🤖
GAST: Ajuste Disperso Alineado por Gradiente de Modelos de Lenguaje Grandes con Selección a Nivel de Datos
📝 Método de fine-tuning eficiente que selecciona simultáneamente capas críticas y puntos de datos impactantes, superando limitaciones de enfoques unidimensionales.
• Optimización unificada en dimensiones de datos y capas
• adapta selección por capa según contribución de datos
• supera consistentemente a métodos baseline.
🧬
CarbonBench: Benchmark Global para Escalamiento de Flujos de Carbono usando Aprendizaje Zero-Shot
📝 Primer benchmark para transferencia espacial zero-shot en flujos de carbono, con 1.3M observaciones de 567 torres globales para probar generalización en ecosistemas no vistos.
• Protocolos de evaluación estratificados
• características armonizadas para diseño flexible
• líneas base de métodos tree-based a arquitecturas de generalización de dominio.
🤖
MSSR: Replay Adaptativo con Conciencia de Memoria para Fine-Tuning Continuo de LLMs
📝 Framework de experience replay que estima fuerza de memoria por muestra y programa rehearsal en intervalos adaptativos para mitigar olvido catastrófico en fine-tuning continuo.
• Supera baselines estado del arte en 11 tareas secuenciales
• particularmente efectivo en tareas de razonamiento intensivo
• balancea adaptación rápida y retención de conocimiento.
🤖
OptEMA: Media Móvil Exponencial Adaptativa para Optimización Estocástica con Optimalidad en Régimen Sin Ruido
📝 Introduce variantes de EMA con coeficientes adaptativos que logran tasas de convergencia óptimas sin conocimiento previo de constantes de Lipschitz ni condiciones restrictivas.
• Tasas adaptativas al ruido: O(T^{-1/2}+σ^{1/2}T^{-1/4})
• en régimen sin ruido alcanza tasa determinista O(T^{-1/2})
• no requiere reajuste manual de hiperparámetros.
🤖
El Drifting Generativo es Secretamente Score Matching: Perspectiva Espectral y Variacional
📝 Revela que el operador drift es equivalente a diferencia de scores en distribuciones suavizadas, fundamentando teóricamente un método estado del arte en generación de imágenes.
• Explica preferencia por kernel Laplaciano
• propone annealing exponencial de ancho de banda
• formaliza como flujo de gradiente Wasserstein de divergencia KL suavizada.
🧬
SignalMC-MED: Benchmark Multimodal para Evaluar Modelos Fundacionales de Bioseñales en ECG y PPG de una Sola Derivación
📝 Benchmark con 22,256 visitas de 10 minutos con ECG y PPG sincronizados, evaluando 20 tareas clínicas para modelos fundacionales de bioseñales.
• Modelos específicos de dominio superan a modelos generales
• fusión multimodal mejora resultados
• señales completas superan a segmentos cortos
• características hand-crafted complementan representaciones aprendidas.
🤖
Cuando las Tasas de Aprendizaje Fallan: Señales Estructurales Tempranas en Actor-Crítico PPO
📝 Este estudio analiza la sensibilidad de PPO a la tasa de aprendizaje, introduciendo el indicador OUI (Overfitting-Underfitting Indicator) para medir el comportamiento neuronal. Se demuestra que el OUI medido tempranamente (10% del entrenamiento) discrimina eficazmente entre regímenes de LR. OUI ofrece la señal de detección temprana más fuerte para identificar ejecuciones prometedoras, superando a otros criterios.
• OUI cuantifica el equilibrio de patrones de activación binaria
• las redes críticas óptimas operan en una banda OUI intermedia
• las redes actor óptimas tienen valores OUI altos
• OUI permite una poda agresiva de ejecuciones sin entrenamiento completo.
🤖
Hacia un Depurador Neuronal para Python
📝 Se introducen los 'depuradores neuronales', modelos de lenguaje que emulan depuradores tradicionales, permitiendo operaciones como ejecución paso a paso y puntos de interrupción. Estos modelos, ajustados para predecir estados futuros y pasados, logran un rendimiento sólido en tareas de predicción de entrada/salida en CruxEval. Este trabajo es un primer paso hacia sistemas de codificación agénticos con depuradores neuronales como modelo del mundo.
• Soportan ejecución directa e inversa
• se obtienen mediante fine-tuning de LLMs o pre-entrenamiento desde cero
• permiten interacción de depuración condicionada
• sentar las bases para una depuración automatizada más potente.
🤖
Sobre el Escalamiento de la Anchura de Optimizadores Neuronales Bajo Normas de Operadores Matriciales I: Normalización por Filas/Columnas y Transferencia de Hiperparámetros
📝 Se aborda cómo diseñar optimizadores (AdamW, Muon) cuyo comportamiento sea estable al aumentar la anchura de la red. Se interpretan como descenso más pronunciado bajo normas de operadores, pero se introduce una nueva familia de normas (media-normalizadas) para garantizar composibilidad capa por capa. Esto lleva a MOGA, un optimizador consciente de la anchura con normalización fila/columna que permite la transferencia estable de la tasa de aprendizaje.
• Las normas media-normalizadas permiten un control independiente de la anchura
• Muon puede tener un crecimiento problemático de la constante de suavizado
• MOGA
• especialmente con normalización por filas
• es competitivo y más rápido que Muon en ciertos regímenes.
🤖
De la Estadística de Datos a la Geometría de Características: Cómo las Correlaciones Dan Forma a la Superposición
📝 Se cuestiona la visión estándar de la superposición de características (interferencia como ruido a filtrar) mediante el entorno controlado BOWS (Bag-of-Words Superposition). Se descubre que con características correlacionadas (como en texto de internet), la interferencia puede ser constructiva. Las redes organizan las características según sus patrones de coactivación, dando lugar a agrupaciones semánticas y estructuras cíclicas observadas en modelos reales.
• La correlación de características cambia la naturaleza de la superposición
• la interferencia constructiva permite representaciones más ricas
• el weight decay fomenta este tipo de organización
• el código está disponible.
🧬
Modulación Consciente de la Tarea Usando Aprendizaje de Representaciones para el Escalamiento de Flujos Terrestres de Carbono
📝 Se presenta TAM-RL, un marco que combina aprendizaje de representaciones espacio-temporales con restricciones físicas (ecuación de balance de carbono) para mejorar el escalado de flujos de carbono terrestre. En más de 150 sitios, TAM-RL supera a los conjuntos de datos existentes, reduciendo el RMSE y aumentando significativamente la varianza explicada. Esto demuestra que integrar restricciones físicas mejora la robustez y transferibilidad de las estimaciones.
• Integra representaciones adaptativas con restricciones físicas
• mejora la generalización más allá de los dominios observados
• reduce el sesgo regional y la incertidumbre predictiva.