Papper news

📄

Aprendizaje Automático

🤖

Aprendizaje Multitarea Equitativo para Redes de Acceso por Radio con IA

📝 Se presenta OWO-FMTL, un marco de aprendizaje multitarea justo para redes de acceso por radio habilitadas con IA. Utiliza dos bucles de aprendizaje para garantizar un rendimiento de inferencia equitativo a largo plazo entre usuarios heterogéneos que comparten recursos.

• Marco de aprendizaje en-línea con dos bucles para equidad • cuantifica la equidad mediante alpha-justicia generalizada • garantiza una disminución de la disparidad de rendimiento y es adecuado para despliegue en el borde de la red.

🤖

Asignación de Crédito a Posteriori para Agentes LLM de Horizonte Largo

📝 HCAPO es el primer marco que integra la asignación de crédito a posteriori en agentes basados en LLMs para tareas de múltiples pasos. Mejora la asignación de crédito al refinar los valores Q a nivel de paso y complementar las líneas base de valor en estados de decisión críticos.

• Supera a los métodos RL existentes en benchmarks como WebShop y ALFWorld • logra mejoras de éxito del 7.7% y 13.8% respectivamente • mejora la eficiencia de exploración y la escalabilidad en tareas complejas.

🤖

Reducción Generalizada a la Isotropía para Campos Neuronales Equivariantes Flexibles

📝 Este artículo presenta una reducción general que permite construir funciones invariantes a grupos en espacios producto heterogéneos. Establece una equivalencia de órbitas que simplifica el problema y la aplica a Campos Neuronales Equivariantes, eliminando restricciones estructurales previas.

• Proporciona un método para manejar acciones grupales en espacios producto • la reducción es a la isotropía del subgrupo que actúa sobre un espacio • extiende los Campos Neuronales Equivariantes a acciones grupales arbitrarias.

🤖

SPREAD: Destilación de Representaciones en Subespacios para Aprendizaje por Imitación a lo Largo de la Vida

📝 SPREAD es un marco de aprendizaje que preserva la geometría de las representaciones de tareas en el aprendizaje por imitación continua. Utiliza descomposición en valores singulares para alinear políticas en subespacios de bajo rango, mejorando la transferencia y evitando el olvido catastrófico.

• Alinea representaciones de políticas en subespacios de baja dimensión para preservar la geometría de la tarea • emplea una estrategia de destilación guiada por confianza • supera el estado del arte en el benchmark LIBERO.

🤖

Meta-aprendizaje por Refuerzo Multinivel con Curriculums Basados en Habilidades

📝 Se describe un procedimiento multinivel para comprimir Procesos de Decisión de Markov (MDPs) complejos, donde las políticas de un nivel se convierten en acciones en el nivel superior. Esto se enmarca en un curriculum learning para transferir habilidades entre problemas y niveles.

• Compresión jerárquica de MDPs para manejar complejidad • las habilidades se transfieren entre diferentes problemas y niveles • el curriculum learning organiza el proceso de aprendizaje para aumentar gradualmente la dificultad.

🤖

El Campo de Transición de Markov Temporal

📝 Se introduce el Campo de Transición de Markov Temporal (TMTF), una extensión del MTF que captura dinámicas de series temporales no estacionarias. Divide la serie en segmentos y calcula matrices de transición locales, creando una imagen con bandas horizontales que reflejan los cambios de régimen.

• Supera la limitación del MTF con dinámicas no estacionarias • genera una imagen T x T con bandas que codifican la dinámica de cada segmento temporal • útil como entrada para redes neuronales convolucionales en clasificación de series temporales.

💻

SoftJAX y SoftTorch: Potenciando Librerías de Diferenciación Automática con Gradientes Informativos

📝 SoftJAX y SoftTorch son librerías de código abierto que proporcionan versiones 'soft' (diferenciables) de funciones 'hard' (no diferenciables) en JAX y PyTorch. Ofrecen sustituciones para operaciones como clipping, lógica booleana y ordenamiento, facilitando la optimización basada en gradientes.

• Incluyen operadores elementwise • métodos para lógica difusa y operadores por eje como sort o rank • soportan estimación de gradientes straight-through • hacen accesibles las relajaciones ' • soft' • para programación diferenciable.

🤖

¿Son Necesarios los Codificadores Expresivos para la Generación de Grafos Discretos?

📝 El estudio presenta GenGNN, un marco de paso de mensajes modular para generación de grafos que desafía la necesidad de arquitecturas complejas. Con GenGNN, los modelos de difusión alcanzan alta validez en generación de grafos y moléculas con una velocidad de inferencia muy superior.

• Alcanza > • 90% de validez en conjuntos de datos Tree y Planar con 2-5x más velocidad • logra 99.49% de validez en generación de moléculas • los estudios de ablación muestran la importancia de las conexiones residuales.

🤖

Compromisos entre Expresividad y Eficiencia en Modelos de Secuencia Híbridos

📝 Este artículo analiza teórica y empíricamente los modelos de secuencia híbridos (Transformers + SSM). Demuestra que los modelos no híbridos tienen limitaciones fundamentales en tareas sintéticas clave, mientras que los híbridos pequeños pueden resolverlas, logrando lo mejor de ambos mundos.

• Los modelos no híbridos requieren muchos parámetros o memoria para tareas como copia selectiva • los híbridos construidos resuelven estas tareas eficientemente • los híbridos aprendidos superan a modelos 6x más grandes y tienen mejor generalización.

🧬

Un Nuevo Modelo para la Selección de Características Basado en la Teoría de Conjuntos Aproximados Fuzzy en Estados Normal y Optimista en Sistemas de Información Híbridos

📝 Propone un nuevo modelo de selección de características (FSbuHD) que reformula el problema en optimización usando distancias combinadas y relaciones de equivalencia difusa, operando en modos normal y optimista para reducir el ruido y la complejidad en big data.

• Introduce FSbuHD • un modelo que convierte la selección de características en un problema de optimización resoluble con metaheurísticas • supera a métodos anteriores en datasets UCI al reducir la dimensionalidad y el ruido.

🧬

Cuantificación de Incertidumbre entre Dominios para Predicción Selectiva: Una Ablación Integral de Límites con Apuestas Informadas por Transferencia

📝 Presenta Transfer-Informed Betting (TIB), un método que mejora los límites de confianza en predicción selectiva al combinar desigualdades de concentración y apuestas, logrando garantías más estrictas en contextos de pocos datos mediante transferencia entre dominios.

• TIB domina a métodos estándar cuando los dominios coinciden • evalúa 9 familias de límites en 4 benchmarks • logrando mejoras de hasta 5.4x en cobertura y aplicándose a sistemas de caché con garantías de riesgo.

🧬

Cuantificación de la Memorización y los Riesgos de Privacidad en Modelos Genómicos del Lenguaje

📝 Desarrolla un marco de evaluación de privacidad multi-vector para modelos genómicos del lenguaje, integrando detección por perplejidad, extracción de secuencias 'canary' e inferencia de pertenencia para medir riesgos de memorización.

• Revela que la memorización varía según la arquitectura y el entrenamiento • ningún vector de ataque por sí solo captura el riesgo completo • abogando por auditorías multi-vector como práctica estándar.

🧬

Descubriendo un Boleto Ganador de Lotería con Compuertas de Bernoulli Relajadas Continuamente

📝 Propone un enfoque totalmente diferenciable para descubrir Strong Lottery Tickets (SLTs) usando compuertas de Bernoulli relajadas, optimizando solo los parámetros de enmascaramiento con pesos congelados y regularización ℓ0.

• Logra hasta un 90% de esparcidad con pérdida mínima de precisión en CNN y Vision Transformers • casi duplicando la esparcidad de métodos anteriores como edge-popup.

🧬

La Doble Penalización de los Modelos Mezcla de Expertos en Inferencia: Fragmentación por Reutilización y su Impacto en el Rendimiento

📝 Identifica una 'doble penalización' en MoE durante inferencia: fragmentación de micro-lotes y reducción de memoria para caché KV, formalizada con la desigualdad qs que predice desventajas estructurales frente a modelos densos.

• En DeepSeek-V3 con contexto largo • un modelo denso equivalente tiene 4.5x más rendimiento • sugiere que MoE es óptimo solo para entrenamiento y la destilación a denso mejora la inferencia.

🧬

Nivel de Detalle Semántico: Representación del Conocimiento Multi-Escala mediante Difusión del Núcleo de Calor en Variedades Hiperbólicas

📝 Introduce Semantic Level of Detail (SLoD), un operador de zoom continuo en el disco de Poincaré usando difusión del núcleo de calor, que permite navegar entre niveles de abstracción con detección automática de límites de escala.

• Demuestra coherencia jerárquica con error acotado • en WordNet • los límites detectados se alinean con la profundidad taxonómica (τ=0.79) • revelando niveles de abstracción sin supervisión.

🧬

MAcPNN: Aprendizaje Mutuamente Asistido en Flujos de Datos con Dependencia Temporal

📝 Propone Mutual Assisted Learning, un paradigma descentralizado donde dispositivos IoT con cPNN se asisten ante cambios de concepto, reduciendo comunicación frente a Federated Learning y mejorando rendimiento.

• MAcPNN usa Continuous Progressive Neural Networks con cuantización • supera a enfoques tradicionales en streams sintéticos y reales al aprender continuamente y reutilizar conocimiento entre nodos.

🧬

MAPLE: Elevando el Razonamiento Médico del Consenso Estadístico a la Alineación Basada en Procesos

📝 Introduce un paradigma de entrenamiento que integra modelos de recompensa por proceso médico con TTRL, reemplazando el voto mayoritario por supervisión alineada con expertos para mejorar el razonamiento clínico.

• MAPLE supera consistentemente a TTRL estándar y selección PRM en cuatro benchmarks • demostrando que guiar con corrección médica estructurada es clave para IA médica fiable y escalable.

🧬

El Acoplamiento Interno: Emparejamiento de Flujos mediante Flujos Normalizadores Destilados

📝 Propone Normalized Flow Matching (NFM), que destila acoplamientos cuasi-deterministas de flujos normalizadores pre-entrenados para entrenar modelos de flujo estudiantes, mejorando el rendimiento y superando al profesor AR-NF.

• NFM supera a modelos entrenados con acoplamientos independientes u OT • logrando lo mejor de ambos mundos: flexibilidad en inferencia y calidad generativa superior gracias a la destilación.

🧬

Una Medida de Planicie Precisa para Estimar la Capacidad de Generalización de Modelos CNN

📝 Desarrolla una medida de planicie exacta y fiel a la arquitectura CNN, derivando una expresión cerrada para la traza del Hessiano en capas convolucionales con pooling promedio global y clasificador lineal.

• La medida considera simetrías de escala e interacciones de filtros • muestra ser una herramienta robusta para evaluar y comparar la generalización en CNNs entrenadas en benchmarks de imagen.

🤖

¿Cuándo reentrenar después de un cambio de concepto?: Una prueba basada únicamente en datos sobre la suficiencia del tamaño de los datos posteriores al cambio

📝 Propone CALIPER, una prueba solo con datos que estima el tamaño de muestra post-cambio necesario para reentrenar de forma estable, explotando la dependencia de estado en flujos de datos.

• Agnóstico al detector/modelo • Bajo coste • Supera tamaños fijos • Cierra brecha entre detección de cambio y adaptación.

🤖

Dos maestros mejor que uno: Aprendizaje automático científico distribuido co-guiado por hardware y física

📝 EPIC, un framework distribuido para SciML que realiza codificación local ligera y decodificación consciente de la física, reduciendo costes de comunicación y manteniendo fidelidad física.

• Reduce latencia 8.9x y energía 33.8x • Mejora fidelidad • Usa atención cruzada • Validado en testbed y OpenFWI.

🤖

SCALAR: Aprendizaje y composición de habilidades mediante planificación simbólica guiada por LLM y base de RL profunda

📝 Marco bidireccional que acopla planificación con LLM y RL a través de una biblioteca de habilidades aprendidas, refinando especificaciones iterativamente con retroalimentación de ejecución.

• Mejora robustez a errores iniciales • 88.2% recolección de diamantes en Craftax • 1.9x mejora sobre línea base.

🤖

Sim2Act: Aprendizaje robusto de simulación a decisión mediante calibración adversarial y perturbación relativa al grupo

📝 Framework robusto que aborda la robustez del simulador y la política mediante calibración adversarial y estrategia de perturbación relativa al grupo para estabilizar el aprendizaje.

• Re-ponderación de errores en pares estado-acción críticos • Evita políticas demasiado conservadoras • Mejora estabilidad en cadenas de suministro.

🤖

Expertos dinámicos multiperiodo para predicción de series temporales en línea

📝 DynaME, un framework híbrido que maneja cambios de concepto recurrentes y emergentes mediante comités de expertos y detección de incertidumbre.

• Distingue entre deriva recurrente y emergente • Se adapta dinámicamente • Supera líneas base en múltiples datasets.

🤖

Aprendiendo decodificación adaptativa de LLM

📝 Introduce adaptadores ligeros de decodificación entrenados con RL para seleccionar estrategias de muestreo de forma dinámica según la dificultad y recursos disponibles.

• Adaptación a nivel de secuencia y token • Mejora equilibrio precisión-presupuesto • Hasta +10.2% Pass@1 en MATH.

🤖

Auto-atención exclusiva

📝 Modificación de la autoatención que restringe la atención a información ortogonal al vector de valor del token, mejorando el modelado de contexto.

• Mejora consistente en modelado de lenguaje • Mayores ganancias con secuencias largas • Escala hasta 2.7B parámetros.

🤖

Optimización híbrida basada en PPO para computación vehicular en el borde semántica asistida por RIS

📝 Propone un framework VEC consciente de semántica asistido por RIS, optimizando ratios de descarga, símbolos semánticos y fases RIS mediante PPO y LP.

• Reduce latencia 40-50% frente a GA/QPSO • Escalable a 30 vehículos • Enfoque de dos niveles.

🤖

No todas las noticias son iguales: Sentimiento condicionado por tema y evento de LLMs ajustados para la predicción del precio del aluminio

📝 Genera puntuaciones de sentimiento mensual de titulares en inglés y chino, integrándolas con datos tabulares para mejorar la predicción de precios del aluminio.

• LSTM con sentimiento mejora Sharpe de 0.23 a 1.04 en alta volatilidad • Análisis de fuentes • temas y tipos de evento.

🤖

Superando la supresión de acciones válidas en algoritmos de gradiente de política sin enmascarar

📝 Identifica que el entrenamiento sin máscaras suprime acciones válidas en estados no visitados debido al compartir parámetros, y prueba un límite de decaimiento exponencial.

• La regularización de entropía intercambia protección por eficiencia • Validado en Craftax y MiniHack • El enmascaramiento elimina este problema.

🔬

Predicción Probabilística del Factor de Histéresis para Baterías de Vehículos Eléctricos con Ánodos de Grafito que Contienen Silicio

📝 Este trabajo introduce un enfoque basado en datos para la predicción probabilística del factor de histéresis en baterías con ánodos de silicio-grafito, abordando los desafíos en la estimación del estado de carga (SoC). Se propone un marco de armonización de datos y se evalúan modelos de aprendizaje estadístico y profundo, considerando la eficiencia computacional y la cuantificación de incertidumbres.

• Enfoque basado en datos para la predicción de histéresis. Armonización de datos de ciclos de conducción heterogéneos. Evaluación de la generalizabilidad en modelos de vehículos no vistos mediante reentrenamiento y fine-tuning.

🔬

Desacoplando Razonamiento y Confianza: Resucitando la Calibración en el Aprendizaje por Refuerzo a partir de Recompensas Verificables

📝 El artículo aborda la degeneración de la calibración en modelos de lenguaje grandes (LLMs) cuando se entrena con RLVR, donde se vuelven excesivamente confiados en respuestas incorrectas. Proponen DCPO, un framework que desacopla los objetivos de razonamiento y calibración para mitigar este problema.

• Identificación de conflicto de gradientes entre precisión y calibración. Framework DCPO que desacopla objetivos. Mejora la calibración sin sacrificar precisión • mitigando el exceso de confianza.

🔬

Expansión de Características Causalmente Suficientes y Necesarias para el Aprendizaje Incremental de Clases

📝 Se propone un método de regularización basado en Probabilidad de Necesidad y Suficiencia (PNS) para guiar la expansión de características en el aprendizaje incremental de clases (CIL). Aborda las correlaciones espurias intra-tarea e inter-tarea que causan colisiones de características y olvido catastrófico.

• Uso de PNS extendido a CIL (CPNS) para medir completitud causal y separabilidad. Generador contrafactual de doble alcance basado en redes gemelas. Método plug-and-play que mitiga la colisión de características.

🔬

Código Incorrecto, Estructura Correcta: Aprendiendo Representaciones de Netlists a partir de RTL Imperfecto Generado por LLM

📝 Se propone un framework de aumento y entrenamiento de datos que explota RTL imperfecto generado por LLM para aprender representaciones de netlists. A pesar de la incorrección funcional, las netlists sintetizadas conservan patrones estructurales indicativos de la funcionalidad prevista.

• Observación clave: LLMs generan RTL con estructura útil aunque funcionalmente incorrecto. Pipeline completo desde generación de código hasta tareas posteriores. Supera la escasez de datos etiquetados en representación de circuitos.

🔬

GIAT: Un Transformer de Atención Geológicamente Informada para Identificación de Litología

📝 Se propone GIAT, un transformer que integra conocimiento geológico previo en el mecanismo de atención para mejorar la identificación de litología a partir de registros de pozos. Utiliza filtros CSC para generar una matriz relacional geológicamente informada que guía la autoatención.

• Nuevo mecanismo de sesgo de atención con conocimiento geológico. Logra hasta 95.4% de precisión. Mayor fidelidad interpretativa y predicciones geológicamente coherentes.

🔬

Mejores Cotas para el Problema de Expertos Distribuidos

📝 Se estudia el problema de expertos distribuidos con n expertos en s servidores durante T pasos. Se presenta un protocolo que logra un equilibrio entre el regret y la comunicación, mejorando trabajos anteriores mediante cotas más ajustadas.

• Protocolo con regret ~ 1/(T·polylog(nsT)). Uso de comunicación de O(n/R^2 + s/R^2)·max(s^{1-2/p} • 1)·polylog(nsT) bits. Mejora con respecto a trabajos previos.

🔬

Latent-DARM: Uniendo Modelos de Difusión Discreta y Autoregresivos para Razonamiento

📝 Se introduce Latent-DARM, un framework de comunicación en espacio latente que combina modelos de difusión discreta (planificadores) y modelos autoregresivos (ejecutores) para mejorar el razonamiento en tareas matemáticas, científicas y de sentido común.

• Puente entre DDLM y ARM en espacio latente. Mejora la precisión en benchmarks como DART-5 y AIME2024. Utiliza menos del 2.2% del presupuesto de tokens de modelos SOTA.

🔬

GNN: Dos Conjuntos de Prototipos para Mejorar el Rendimiento de GNN

📝 Se presenta P^2GNN, una técnica plug-and-play que utiliza dos conjuntos de prototipos para optimizar el paso de mensajes en GNNs. Los prototipos proporcionan contexto global y efecto de eliminación de ruido, mejorando el rendimiento en tareas de recomendación y clasificación de nodos.

• Prototipos como vecinos universalmente accesibles (contexto global). Alineación de mensajes a prototipos agrupados (eliminación de ruido). Mejor rendimiento en 18 datasets • incluyendo comercio electrónico.

🔬

El Transformer de Radiofrecuencia para Separación de Señales

📝 Se presenta un método de separación de señales basado en transformer que aprende un tokenizador discreto para la señal de interés y se entrena con pérdida de entropía cruzada. Supera al MSE convencional y logra una reducción de 122x en BER en mezclas de RF.

• Tokenizador basado en SoundStream con FSQ. Entrenamiento con entropía cruzada supera a MSE. Generalización zero-shot a interferencias no vistas. Aplicable a otros dominios científicos.

🔬

Aprendizaje por Refuerzo Multi-Agente Estratégicamente Robusto con Aproximación Lineal de Funciones

📝 Se propone RQRE-OVI, un algoritmo de iteración de valor optimista para calcular el Equilibrio de Respuesta Cuantal Sensible al Riesgo (RQRE) en juegos de Markov con aproximación lineal de funciones. Ofrece un equilibrio entre rendimiento esperado y robustez.

• RQRE proporciona una solución única y suave. Análisis de regret con escalamiento en parámetros de racionalidad y sensibilidad al riesgo. Mapa de política Lipschitz continuo y robustez mejorada bajo cross-play.

🤖

Más allá del entrenamiento en tiempo de prueba: Aprendiendo a razonar mediante control óptimo eficiente en hardware

📝 Introduce la capa Test-Time Control (TTC) que realiza planificación LQR de horizonte finito sobre estados latentes, integrando el control óptimo como un componente arquitectónico para mejorar el razonamiento en modelos de lenguaje.

• Mejoras de hasta +27.8% en MATH-500 y 2-3x Pass@8 en AMC/AIME • utiliza un solucionador LQR eficiente implementado en CUDA • permite planificación antes de la predicción sin aumentar el costo en inferencia.

🤖

Razonamiento eficiente con costo fijo en tiempo de prueba mediante priors de atención conscientes de longitud y entrenamiento consciente de ganancia

📝 Propone dos componentes solo para entrenamiento: un prior de atención por alineación de posición difusa (RPA) y un controlador de ganancia (Guardian) que mejoran la generalización sin aumentar el costo en inferencia.

• Reduce la entropía cruzada en validación sin cambios de latencia • el prior se añade como bias por cabeza en inferencia sin costo adicional • enfoque fundamentado en MAP con regularización KL.

🧬

Generalización transductiva mediante transporte óptimo y su aplicación a la clasificación de nodos en grafos

📝 Establece nuevas cotas de generalización basadas en representaciones y transporte óptimo, que son computables y correlacionan con el error empírico en clasificación de nodos con GNN.

• Cotas expresadas en distancias de Wasserstein • revela el trade-off entre concentración intra-clase y separación inter-clase • código disponible.

🧬

DendroNN: Redes neuronales dendrocéntricas para clasificación energéticamente eficiente de datos basados en eventos

📝 Introduce DendroNN, una red que imita mecanismos dendríticos para detectar secuencias de spikes como características espacio-temporales, con una fase de reconexión sin gradientes.

• Hasta 4x más eficiencia que hardware neuromórfico SOTA • arquitectura asíncrona con mecanismo de rueda de tiempo • adecuada para computación basada en eventos.

🔒

Calibración de mediciones guiada por proxies

📝 Propone un marco para corregir errores sistemáticos en variables de resultado usando variables proxy, modelando el proceso generativo con gráficos causales y autoencoders variacionales.

• Separa latentes de contenido y sesgo • evaluado en datos sintéticos • semi-sintéticos y un caso real de desastres • permite estimar el efecto del sesgo.

🧬

Un teorema de comparación gaussiana para la dinámica de entrenamiento en aprendizaje automático

📝 Conecta la evolución de modelos entrenados con datos de mezcla gaussiana a un sistema dinámico sustituto más analizable, basado en el teorema de comparación de Gordon.

• Prueba la validez de expresiones de campo medio dinámico (DMF) • sugiere un esquema de refinamiento iterativo • aplicado al entrenamiento de un perceptrón.

🤖

Reward-Zero: Mecanismos de recompensa implícita impulsados por incrustaciones de lenguaje para aprendizaje por refuerzo

📝 Introduce Reward-Zero, una función de recompensa implícita que usa incrustaciones de lenguaje para generar señales de progreso densas y alineadas semánticamente en RL.

• Mejora exploración • estabiliza entrenamiento y generaliza • acelera convergencia frente a PPO • código será liberado.

🔒

TA-GGAD: Modelo de grafos adaptativo en tiempo de prueba para detección generalista de anomalías en grafos

📝 Identifica el problema de desasortatividad de anomalías (ADAD) y propone un modelo fundacional de grafos para detección de anomalías con generalización cross-dominio.

• Logra SOTA en catorce grafos reales • solo requiere una fase de entrenamiento • código disponible.

💻

Visualización 3D interactiva de predicciones de rugosidad superficial en fabricación aditiva: Un marco basado en datos

📝 Marco basado en datos para predecir rugosidad superficial (Ra) en fabricación aditiva usando parámetros de impresión y ángulo de inclinación, con visualización 3D interactiva.

• 1566 mediciones • perceptrón multicapa y GAN condicional para aumentar datos • interfaz web para planificación de procesos.

🔒

Democratizando la IA clínica mediante condensación de datasets para modelos clínicos clásicos

📝 Extiende la condensación de datasets a modelos no diferenciables como árboles de decisión y regresión de Cox, permitiendo compartir datos sintéticos con privacidad diferencial.

• Marco de optimización de orden cero con privacidad diferencial • preserva utilidad del modelo • aplicado a seis datasets clínicos.

🤖

Un Enfoque de Control Óptimo para el Entrenamiento de Transformers

📝 Desarrolla un enfoque riguroso de teoría de control óptimo para el entrenamiento de Transformers, modelando la arquitectura como un sistema de partículas controlado y estableciendo la existencia de políticas globalmente óptimas.

• Modela Transformers como sistema de partículas McKean-Vlasov • lo eleva a MDP completamente observable • prueba existencia de políticas óptimas globales • propone entrenamiento triplemente cuantificado • establece estabilidad y consistencia empírica.

🤖

Enrutamiento sin Olvido

📝 Introduce Routing without Forgetting (RwF), una arquitectura Transformer con capas de recuperación asociativa basadas en energía que genera prompts dinámicos para aprendizaje continuo en línea sin identificadores de tarea.

• Usa capas tipo Hopfield para recuperación asociativa en un paso • supera métodos basados en prompts en benchmarks como Split-ImageNet-R • funciona en régimen de few-shot y flujo de datos no estacionario.

🤖

Hacia la Comprensión de la Convergencia de Adam en Polinomios Altamente Degenerados

📝 Investiga las propiedades de autoconvergencia de Adam en polinomios altamente degenerados, demostrando convergencia lineal local y superando a GD y Momentum.

• Identifica clase de funciones donde Adam converge sin schedulers • prueba condiciones de estabilidad asintótica • muestra aceleración por desacoplamiento de momentos • caracteriza diagrama de fases con tres regímenes.

🔒

Privacidad Diferencial Variacional No Paramétrica mediante Recorte de Parámetros de Inserción

📝 Introduce una estrategia de recorte de parámetros derivada de minimizar la cota superior de la divergencia de Rényi para mejorar la privacidad en modelos de lenguaje con privacidad diferencial variacional no paramétrica.

• Recorte de media • varianza y pesos de mezcla basado en teoría • logra cotas más ajustadas de divergencia Rényi • mejora privacidad y rendimiento en tareas posteriores • mejora el equilibrio privacidad-utilidad.

🧬

Capacidad de Memorización de Redes Neuronales Profundas ReLU Caracterizada por Ancho y Profundidad

📝 Caracteriza la capacidad de memorización de redes ReLU, estableciendo cotas superiores e inferiores óptimas en términos de ancho y profundidad para memorizar N puntos con separación δ.

• Construcción que logra W²L² = O(N log(δ⁻¹)) • prueba cota inferior Ω(N log(δ⁻¹)) • caracteriza trade-off entre ancho y profundidad • óptimo salvo factores logarítmicos.

💻

Algoritmos MM para NMF Tradicional y Convexa con Funciones de Costo Tweedie y Binomial Negativa y Evaluación Empírica

📝 Desarrolla un marco unificado para NMF tradicional y convexa bajo modelos Tweedie y Binomial Negativa, derivando reglas de actualización multiplicativas mediante MM.

• Nuevas actualizaciones para NMF convexa con Poisson y NegBin • implementación unificada en R (nmfgenr) • evaluación empírica en datos genómicos y de texto • muestra impacto del modelo de ruido en la recuperación.

🧬

Aprendiendo la Organización Jerárquica en Redes Cerebrales para el Diagnóstico de Trastornos Cerebrales

📝 Propone BrainHO, que aprende dependencias jerárquicas en redes cerebrales sin subredes predefinidas, usando atención jerárquica y restricciones de ortogonalidad para mejorar el diagnóstico.

• Atención jerárquica para agregar nodos en organizaciones • pérdida de ortogonalidad para diversidad • restricciones de consistencia jerárquica • supera estado del arte en ABIDE y REST-meta-MDD • identifica biomarcadores interpretables.

🔬

Síntesis de Imágenes del Subsuelo Guiada por Registros de Pozos a partir de Datos Petrográficos Dispersos usando cGANs

📝 Usa cGANs condicionadas a porosidad de registros de pozos para sintetizar imágenes de secciones delgadas de rocas carbonatadas, llenando vacíos entre muestras discretas.

• Entrenado con 5000 subimágenes de 15 muestras • genera imágenes consistentes para porosidad 0.004-0.745 • 81% de precisión dentro del 10% de la porosidad objetivo • útil para caracterización de yacimientos.

📊

FreqCycle: Un Método de Análisis Tiempo-Frecuencia Multiescala para Pronóstico de Series Temporales

📝 Propone FreqCycle, que combina extracción de patrones periódicos en dominio temporal y mejora de energía en frecuencias medias-altas mediante filtros aprendibles y ponderación adaptativa.

• Módulo FECF para baja frecuencia • módulo SFPL para frecuencias medias-altas • versión jerárquica MFreqCycle para multiperiodicidad acoplada • estado del arte en precisión y velocidad.

📄

⚖️ No hay evaluación sin representación justa: Impacto del sesgo de etiqueta y selección en la evaluación, rendimiento y mitigación de modelos de clasificación

📝 Analiza empíricamente el impacto del sesgo de etiqueta y selección en la evaluación, rendimiento y mitigación de sesgos en clasificación, proponiendo un marco para modelar mundos justos y sus contrapartes sesgadas.

• Introduce framework para inyectar sesgo controlado • muestra ausencia de trade-off fairness-exactitud en test sin sesgo • el tipo de sesgo afecta la eficacia de métodos de mitigación • llama a evaluaciones más representativas.

🤖

GNN para Detección de Anomalías en Series Temporales: Un Framework de Código Abierto y una Evaluación Crítica

📝 Este artículo presenta un framework de código abierto para la detección de anomalías en series temporales usando GNNs, facilitando la experimentación reproducible. Los autores evalúan varias arquitecturas basadas en GNN y demuestran que no solo mejoran el rendimiento de detección, sino que también ofrecen ganancias significativas en interpretabilidad.

• Framework de código abierto para TSAD con GNNs • Las GNNs mejoran el rendimiento y la interpretabilidad • Las GNNs basadas en atención son robustas cuando la estructura del grafo es incierta • Reflexión crítica sobre métricas y estrategias de umbralización comunes.

🤖

Sobre el Olvido Catastrófico en el Ajuste Fino Eficiente en Parámetros Basado en Descomposición de Bajo Rango

📝 Este estudio empírico investiga el olvido catastrófico en el ajuste fino eficiente en parámetros (PEFT) basado en descomposición de bajo rango para el aprendizaje secuencial. Los resultados muestran que el olvido está fuertemente influenciado por la geometría y parametrización del subespacio de actualización, y que ciertas descomposiciones pueden mitigarlo.

• La geometría del subespacio de actualización influye en el olvido catastrófico • Las descomposiciones tensoriales (LoRETTA) mitigan el olvido • Las parametrizaciones estructuralmente alineadas (WeGeFT) preservan representaciones pre-entrenadas • Ofrece orientación práctica para estrategias de adaptación en entornos secuenciales.

🤖

ActiveUltraFeedback: Generación Eficiente de Datos de Preferencia usando Aprendizaje Activo

📝 Se introduce ACTIVEULTRAFEEDBACK, un pipeline de aprendizaje activo que utiliza estimaciones de incertidumbre para identificar dinámicamente las respuestas más informativas para la anotación en RLHF. El método demuestra que puede lograr resultados comparables o superiores con hasta una sexta parte de los datos anotados en comparación con las líneas base estáticas.

• Pipeline de aprendizaje activo modular para generar datos de preferencia • Introduce los métodos DRTS y DELTAUCB • Reduce significativamente la cantidad de datos de anotación necesarios (hasta 1/6) • Código y conjuntos de datos disponibles públicamente.

🧬

Operador Neuronal Informado por la Física para el Modelado Predictivo de Campos de Fase Paramétricos

📝 Este trabajo desarrolla PF-PINO, un framework de operador neuronal informado por la física para aprender PDEs de campo de fase paramétricas. Al incorporar los residuos de las ecuaciones rectoras en la función de pérdida, el método mejora significativamente la precisión, la capacidad de generalización y la estabilidad a largo plazo en comparación con el FNO convencional.

• Framework PF-PINO para modelado de campos de fase paramétricos • Incorpora restricciones físicas en el entrenamiento • Supera al FNO convencional en precisión y generalización • Validado en corrosión electroquímica • solidificación dendrítica y descomposición espinodal.

🤖

Mousse: Rectificando la Geometría de Muon con Precondicionamiento Consciente de la Curvatura

📝 Se propone Mousse, un nuevo optimizador que reconcilia la estabilidad estructural de los métodos espectrales con la adaptabilidad geométrica del precondicionamiento de segundo orden. Mousse opera en un sistema de coordenadas blanqueado inducido por estadísticas factorizadas de Kronecker y supera a Muon en modelos de lenguaje de hasta 800M de parámetros.

• Nuevo optimizador Mousse que mejora Muon • Aborda la limitación de asumir un paisaje de optimización isotrópico • Utiliza precondicionamiento estilo Shampoo con actualización espectral • Logra ~12% de reducción en pasos de entrenamiento con sobrecarga computacional insignificante.

🤖

Un Enfoque de Destilación de Conocimiento Federado Guiado por Múltiples Prototipos en Sistema de Computación en el Borde de Múltiple Acceso Habilitado por AI-RAN

📝 Se propone MP-FedKD, un enfoque de destilación de conocimiento federado guiado por múltiples prototipos para sistemas MEC habilitados por AI-RAN. El método integra autodestilación de conocimiento y una estrategia de múltiples prototipos para abordar el problema de datos no-IID y la pérdida de información, superando a las líneas base de vanguardia.

• Aborda la heterogeneidad de datos (no-IID) en aprendizaje federado • Utiliza autodestilación de conocimiento y múltiples prototipos • Introduce CHAC (clustering aglomerativo jerárquico condicional) y un esquema de alineación de prototipos • Diseña una nueva función de pérdida LEMGP.

🧬

Cotas Superiores de Generalización para Osciladores Neuronales

📝 Este estudio deriva cotas superiores de generalización PAC para osciladores neuronales (una EDO de segundo orden seguida de un MLP) utilizando el marco de complejidad de Rademacher. Los resultados teóricos muestran que los errores de estimación crecen polinomialmente con el tamaño del MLP y la longitud del tiempo, evitando la maldición de la complejidad paramétrica.

• Derivación teórica de cotas de generalización para osciladores neuronales • Los errores crecen polinomialmente (no exponencialmente) con la complejidad • Validación numérica en un sistema no lineal de Bouc-Wen • La regularización de constantes de Lipschitz mejora la generalización.

💻

Un Framework Híbrido Cuántico-Clásico para la Predicción de la Volatilidad Financiera Basado en Máquinas de Nacimiento de Circuitos Cuánticos

📝 Se propone un framework híbrido cuántico-clásico para la predicción de la volatilidad financiera, que combina LSTM con una Quantum Circuit Born Machine (QCBM). El modelo, evaluado en datos de alta frecuencia del SSE Composite Index y CSI 300 Index, supera a la línea base puramente clásica de LSTM en múltiples métricas clave.

• Framework híbrido que combina LSTM y QCBM • La QCBM actúa como un módulo a priori para guiar la predicción • Evaluado en datos financieros reales de alta frecuencia • Supera al LSTM clásico en MSE • RMSE y QLIKE.

🤖

Explotando la Puntuación de Canales Consciente de las Etiquetas para la Poda Adaptativa de Canales en Aprendizaje Dividido

📝 Se propone ACP-SL, un esquema de aprendizaje dividido con poda adaptativa de canales para reducir la sobrecarga de comunicación. Incluye un módulo de puntuación de importancia de canales consciente de las etiquetas (LCIS) y un módulo de poda adaptativa (ACP) que comprime los datos 'smashed', logrando una mayor precisión y una reducción en las rondas de entrenamiento.

• Reduce la sobrecarga de comunicación en Split Learning • Módulo LCIS para puntuar la importancia de los canales • Módulo ACP para podar canales menos importantes • Supera a los esquemas de referencia en precisión y reduce las rondas de entrenamiento.

🧬

Optimización Bayesiana Informada por la Teoría de la Información sobre el Simplex de Probabilidad

📝 Se presenta αα-GaBO, una nueva familia de algoritmos de optimización bayesiana para el simplex de probabilidad. El método se basa en la geometría de la información para construir núcleos de Matérn que reflejan la geometría del simplex y optimizadores geométricos para la función de adquisición, mostrando un mayor rendimiento en comparación con los enfoques euclidianos restringidos.

• Algoritmos de optimización bayesiana para el simplex de probabilidad • Utiliza geometría de la información para construir núcleos de Matérn • Introduce una familia paramétrica de optimizadores geométricos • Validado en funciones de referencia • mezclas de clasificadores y una tarea de control robótico.

🤖

Un Buen Razonamiento Produce Buenas Demostraciones: Supervisión Implícita de Calidad de Razonamiento a través de Aprendizaje por Refuerzo en Contexto

📝 Mejora el razonamiento en LLMs asignando mayor peso a soluciones de alta calidad durante el entrenamiento, superando la limitación de RLVR que trata por igual todas las soluciones correctas aunque tengan razonamientos defectuosos.

• Introduce Evidence Gain para medir utilidad de demostraciones • utiliza aprendizaje en contexto del modelo para reweighting implícito • mejora precisión y calidad de razonamiento en benchmarks matemáticos.

🤖

Corrección de Modelos Basados en Transformers con Pseudoproyector Suavizante

📝 Introduce un pseudoproyector como modificador ligero que reduce sensibilidad al ruido suprimiendo direcciones inducidas por contenido irrelevante, inspirado en métodos multigrid.

• Mejora dinámicas de entrenamiento y robustez en clasificación de texto • no altera arquitectura base • demostrado en benchmarks sintéticos y tareas reales con transformadores.

🤖

Marco Unificado Jerárquico Multitarea y Multifidelidad para Modelado Sustituto Eficiente en Datos para Manufactura

📝 Desarrolla un framework jerárquico que combina aprendizaje multitarea y modelado multifidelidad para aprovechar similitudes entre tareas y datos de diferente calidad.

• Mejora precisión hasta 23% sobre métodos estado del arte • maneja número arbitrario de tareas y niveles de fidelidad • validado en predicción de forma de superficies de motores.

🤖

Enfoque Basado en Grafos para Predicción de Demanda de Espectro usando Redes de Atención Jerárquica

📝 Propone HR-GAT, un modelo de atención jerárquica para predecir demanda de espectro usando datos geoespaciales, manejando patrones complejos y autocorrelación espacial.

• Mejora precisión predictiva en 21% sobre 8 modelos base • probado en cinco ciudades canadienses • supera problemas de generalización de modelos estándar.

🤖

GAST: Ajuste Disperso Alineado por Gradiente de Modelos de Lenguaje Grandes con Selección a Nivel de Datos

📝 Método de fine-tuning eficiente que selecciona simultáneamente capas críticas y puntos de datos impactantes, superando limitaciones de enfoques unidimensionales.

• Optimización unificada en dimensiones de datos y capas • adapta selección por capa según contribución de datos • supera consistentemente a métodos baseline.

🧬

CarbonBench: Benchmark Global para Escalamiento de Flujos de Carbono usando Aprendizaje Zero-Shot

📝 Primer benchmark para transferencia espacial zero-shot en flujos de carbono, con 1.3M observaciones de 567 torres globales para probar generalización en ecosistemas no vistos.

• Protocolos de evaluación estratificados • características armonizadas para diseño flexible • líneas base de métodos tree-based a arquitecturas de generalización de dominio.

🤖

MSSR: Replay Adaptativo con Conciencia de Memoria para Fine-Tuning Continuo de LLMs

📝 Framework de experience replay que estima fuerza de memoria por muestra y programa rehearsal en intervalos adaptativos para mitigar olvido catastrófico en fine-tuning continuo.

• Supera baselines estado del arte en 11 tareas secuenciales • particularmente efectivo en tareas de razonamiento intensivo • balancea adaptación rápida y retención de conocimiento.

🤖

OptEMA: Media Móvil Exponencial Adaptativa para Optimización Estocástica con Optimalidad en Régimen Sin Ruido

📝 Introduce variantes de EMA con coeficientes adaptativos que logran tasas de convergencia óptimas sin conocimiento previo de constantes de Lipschitz ni condiciones restrictivas.

• Tasas adaptativas al ruido: O(T^{-1/2}+σ^{1/2}T^{-1/4}) • en régimen sin ruido alcanza tasa determinista O(T^{-1/2}) • no requiere reajuste manual de hiperparámetros.

🤖

El Drifting Generativo es Secretamente Score Matching: Perspectiva Espectral y Variacional

📝 Revela que el operador drift es equivalente a diferencia de scores en distribuciones suavizadas, fundamentando teóricamente un método estado del arte en generación de imágenes.

• Explica preferencia por kernel Laplaciano • propone annealing exponencial de ancho de banda • formaliza como flujo de gradiente Wasserstein de divergencia KL suavizada.

🧬

SignalMC-MED: Benchmark Multimodal para Evaluar Modelos Fundacionales de Bioseñales en ECG y PPG de una Sola Derivación

📝 Benchmark con 22,256 visitas de 10 minutos con ECG y PPG sincronizados, evaluando 20 tareas clínicas para modelos fundacionales de bioseñales.

• Modelos específicos de dominio superan a modelos generales • fusión multimodal mejora resultados • señales completas superan a segmentos cortos • características hand-crafted complementan representaciones aprendidas.

🤖

Cuando las Tasas de Aprendizaje Fallan: Señales Estructurales Tempranas en Actor-Crítico PPO

📝 Este estudio analiza la sensibilidad de PPO a la tasa de aprendizaje, introduciendo el indicador OUI (Overfitting-Underfitting Indicator) para medir el comportamiento neuronal. Se demuestra que el OUI medido tempranamente (10% del entrenamiento) discrimina eficazmente entre regímenes de LR. OUI ofrece la señal de detección temprana más fuerte para identificar ejecuciones prometedoras, superando a otros criterios.

• OUI cuantifica el equilibrio de patrones de activación binaria • las redes críticas óptimas operan en una banda OUI intermedia • las redes actor óptimas tienen valores OUI altos • OUI permite una poda agresiva de ejecuciones sin entrenamiento completo.

🤖

Hacia un Depurador Neuronal para Python

📝 Se introducen los 'depuradores neuronales', modelos de lenguaje que emulan depuradores tradicionales, permitiendo operaciones como ejecución paso a paso y puntos de interrupción. Estos modelos, ajustados para predecir estados futuros y pasados, logran un rendimiento sólido en tareas de predicción de entrada/salida en CruxEval. Este trabajo es un primer paso hacia sistemas de codificación agénticos con depuradores neuronales como modelo del mundo.

• Soportan ejecución directa e inversa • se obtienen mediante fine-tuning de LLMs o pre-entrenamiento desde cero • permiten interacción de depuración condicionada • sentar las bases para una depuración automatizada más potente.

🤖

Sobre el Escalamiento de la Anchura de Optimizadores Neuronales Bajo Normas de Operadores Matriciales I: Normalización por Filas/Columnas y Transferencia de Hiperparámetros

📝 Se aborda cómo diseñar optimizadores (AdamW, Muon) cuyo comportamiento sea estable al aumentar la anchura de la red. Se interpretan como descenso más pronunciado bajo normas de operadores, pero se introduce una nueva familia de normas (media-normalizadas) para garantizar composibilidad capa por capa. Esto lleva a MOGA, un optimizador consciente de la anchura con normalización fila/columna que permite la transferencia estable de la tasa de aprendizaje.

• Las normas media-normalizadas permiten un control independiente de la anchura • Muon puede tener un crecimiento problemático de la constante de suavizado • MOGA • especialmente con normalización por filas • es competitivo y más rápido que Muon en ciertos regímenes.

🤖

De la Estadística de Datos a la Geometría de Características: Cómo las Correlaciones Dan Forma a la Superposición

📝 Se cuestiona la visión estándar de la superposición de características (interferencia como ruido a filtrar) mediante el entorno controlado BOWS (Bag-of-Words Superposition). Se descubre que con características correlacionadas (como en texto de internet), la interferencia puede ser constructiva. Las redes organizan las características según sus patrones de coactivación, dando lugar a agrupaciones semánticas y estructuras cíclicas observadas en modelos reales.

• La correlación de características cambia la naturaleza de la superposición • la interferencia constructiva permite representaciones más ricas • el weight decay fomenta este tipo de organización • el código está disponible.

🧬

Modulación Consciente de la Tarea Usando Aprendizaje de Representaciones para el Escalamiento de Flujos Terrestres de Carbono

📝 Se presenta TAM-RL, un marco que combina aprendizaje de representaciones espacio-temporales con restricciones físicas (ecuación de balance de carbono) para mejorar el escalado de flujos de carbono terrestre. En más de 150 sitios, TAM-RL supera a los conjuntos de datos existentes, reduciendo el RMSE y aumentando significativamente la varianza explicada. Esto demuestra que integrar restricciones físicas mejora la robustez y transferibilidad de las estimaciones.

• Integra representaciones adaptativas con restricciones físicas • mejora la generalización más allá de los dominios observados • reduce el sesgo regional y la incertidumbre predictiva.

📄

Inteligencia Artificial

🤖

MASEval: Extendiendo la Evaluación Multi-Agente de Modelos a Sistemas

📝 MASEval aborda la falta de benchmarks que comparen sistemas agénticos completos en lugar de solo modelos. Es una biblioteca agnóstica al framework que evalúa decisiones de implementación como topología y orquestación.

• La comparación sistemática revela que la elección del framework importa tanto como la del modelo. Permite a investigadores explorar todos los componentes del sistema y a profesionales identificar la mejor implementación para su caso de uso.

🤖

LDP: Un Protocolo Consciente de la Identidad para Sistemas Multi-Agente con LLM

📝 Se presenta el Protocolo Delegate de LLM (LDP), un protocolo de comunicación nativo de IA que expone propiedades del modelo como identidad y perfil de razonamiento. Introduce cinco mecanismos para una delegación más eficiente y gobernable.

• El enrutamiento consciente de la identidad logra una latencia ~12 veces menor en tareas fáciles. Las sesiones gobernadas eliminan una sobrecarga de tokens del 39% en 10 rondas. El análisis simulado muestra ventajas en detección de ataques (96% vs. 6%).

🤖

Cuantificando el Impacto en Precisión y Costo de Decisiones de Diseño en Búsqueda Agéntica con LLM con Presupuesto Limitado

📝 Este estudio mide controladamente cómo la profundidad de búsqueda, la estrategia de recuperación y el presupuesto de finalización afectan la precisión y el costo bajo restricciones fijas en sistemas RAG agénticos.

• La precisión mejora con búsquedas adicionales hasta un límite. La recuperación híbrida (léxica y densa) con re-clasificación ligera produce las mayores ganancias. Los resultados ofrecen una guía práctica para configurar estos sistemas.

🤖

Superficies de Riesgo Espaciotemporal Interpretables Basadas en Markov para la Planificación de Búsqueda de Menores Desaparecidos con Aprendizaje por Refuerzo y Aseguramiento de Calidad con LLM

📝 Se presenta Guardian, un sistema de apoyo a la decisión para la investigación de menores desaparecidos. Su componente predictivo de tres capas (cadena de Markov, aprendizaje por refuerzo y validación con LLM) genera planes de búsqueda probabilísticos interpretables.

• La cadena de Markov modela el movimiento con parámetros diurnos/nocturnos. El RL optimiza las zonas de búsqueda. El LLM valida los planes resultantes antes de su liberación • mejorando la fiabilidad.

🤖

AgentOS: De Silos de Aplicaciones a un Ecosistema de Datos Impulsado por Lenguaje Natural

📝 Este artículo propone un nuevo paradigma de Sistema Operativo Personal de Agentes (AgentOS) que reemplaza las interfaces tradicionales con una Interfaz de Usuario Natural (NUI) centrada en el lenguaje, donde las aplicaciones se convierten en 'Skills-as-Modules'.

• El núcleo del sistema (Kernel de Agente) debe ser un motor de minería de intenciones y descubrimiento de conocimiento en tiempo real. Esto convierte el problema en uno de KDD • con desafíos como minería de patrones secuenciales y sistemas de recomendación.

🤖

Un Pipeline Multi-LLM Basado en Consenso para Investigaciones de Personas Desaparecidas

📝 Se detalla el pipeline de LLM de Guardian, un sistema multi-modelo que utiliza LLMs para la extracción y procesamiento de información en operaciones de búsqueda. Coordina la ejecución entre modelos especializados y emplea un motor de consenso para resolver discrepancias.

• El pipeline se fortalece con fine-tuning QLoRA. El diseño se alinea con el uso de LLMs como extractores estructurados y etiquetadores • bajo supervisión humana • en lugar de tomadores de decisiones autónomos.

🤖

La Estrategia FABRIC para Verificar Sistemas de Retroalimentación Neuronal

📝 Este trabajo introduce nuevos algoritmos para calcular sobre y subaproximaciones de conjuntos alcanzables hacia atrás en sistemas no lineales con control neuronal. Los integra con técnicas de análisis hacia adelante en un algoritmo llamado FaBRIC.

• FaBRIC (Integración de Alcanzabilidad Hacia Adelante y Atrás para la Certificación) supera significativamente al estado del arte anterior en la verificación de especificaciones de alcanzar-evitar en sistemas con redes neuronales.

🤖

Meissa: Inteligencia Multi-modal de Agentes Médicos

📝 Meissa es un MM-LLM médico ligero (4B params) que lleva la capacidad agéntica fuera de línea. Aprende estrategias de interacción (cuándo y cómo actuar) destilando trayectorias de modelos frontera, operando con baja latencia y sin riesgos de privacidad.

• Con 25 veces menos parámetros que modelos como Gemini • iguala o supera a agentes propietarios en 10 de 16 configuraciones de evaluación. Opera completamente fuera de línea con una latencia 22 veces menor en comparación con el despliegue basado en API.

🤖

MEMO: Optimización de Contexto de Modelo Aumentada con Memoria para Juegos Robusto de Múltiples Turnos y Múltiples Agentes con LLM

📝 MEMO es un framework de auto-juego que optimiza el contexto en tiempo de inferencia combinando retención (memoria persistente de trayectorias) y exploración (evolución de prompts basada en TrueSkill). Mejora la tasa de victorias media del 25.1% al 49.5% para GPT-4o-mini y reduce la varianza entre ejecuciones.

• Aborda la inestabilidad en evaluaciones multi-agente • acopla retención y exploración • mayores ganancias en juegos de negociación e información imperfecta • reduce la varianza y mejora rankings.

🤖

Tiempo, Identidad y Conciencia en Agentes Modelo de Lenguaje

📝 Aplica la teoría de pilas (Stack Theory) para evaluar la persistencia de la identidad en agentes de lenguaje mediante scores derivados de trayectorias instrumentadas. Separa el 'hablar como un yo estable' de 'estar organizado como uno'.

• Introduce scores de persistencia (Arpegio y Acorde) • conecta con cinco métricas de identidad • mapea scaffolds en un morfoespacio • ofrece un toolkit conservador para evaluar identidad.

🤖

EPOCH: Un Protocolo de Agentes para Optimización de Sistemas Multirronda

📝 EPOCH es un protocolo de ingeniería para optimización multirronda en entornos heterogéneos. Organiza el proceso en fases de construcción de línea base y mejora iterativa, con etapas separadas de planificación, implementación y evaluación.

• Estandariza la optimización de prompts • configuraciones • código y reglas • asegura reproducibilidad y trazabilidad • útil para flujos de mejora autónoma orientados a producción.

🤖

De Días a Minutos: Un Agente de IA Autónomo Logra Triaje Clínico Confiable en Monitoreo Remoto de Pacientes

📝 Sentinel, un agente autónomo basado en el Protocolo de Contexto de Modelo (MCP), automatiza el triaje de signos vitales en monitoreo remoto. Logra un 95.8% de sensibilidad en emergencias, superando a clínicos humanos, con un costo de $0.34 por triaje.

• Valida contra seis clínicos • alta consistencia interna (kappa=0.850) • reduce el costo y tiempo del triaje • aborda limitaciones de ensayos clínicos previos.

🤖

Dinámicas Caóticas en la Deliberación de Múltiples LLM

📝 Modela comités de cinco LLM como sistemas dinámicos aleatorios y cuantifica la sensibilidad entre ejecuciones mediante un exponente de Lyapunov empírico. Identifica rutas hacia la inestabilidad incluso en regímenes deterministas (T=0).

• La diferenciación de roles y la heterogeneidad de modelos causan inestabilidad • la combinación mixto+roles es menos inestable que mixto+sin-roles • la auditoría de estabilidad es crucial.

🤖

Investigación Tabular Profunda mediante Ejecución Continua Impulsada por Experiencia

📝 Aborda la Investigación Tabular Profunda (DTR) con un framework agentico que trata el razonamiento tabular como un proceso de decisión de ciclo cerrado. Usa un meta-grafo jerárquico y memoria estructurada siamesa para refinamiento continuo.

• Separa la planificación estratégica de la ejecución • prioriza rutas de alta utilidad • la memoria siamesa combina actualizaciones parametrizadas y textos abstractos • efectivo en tablas no estructuradas.

🤖

DataFactory: Framework Multi-Agente Colaborativo para Preguntas y Respuestas Avanzadas sobre Tablas

📝 DataFactory es un framework multi-agente con un Data Leader y equipos especializados (Base de Datos y Grafo de Conocimiento). Descompone consultas complejas en tareas estructuradas y relacionales, mejorando precisión y reduciendo alucinaciones.

• Mejoras consistentes en TabFact • WikiTableQuestions y FeTaQA • la coordinación de equipos supera a variantes de un solo equipo • transforma datos a grafos de conocimiento • consultas en lenguaje natural.

🤖

Verificación de Confianza en Tiempo Real para Acciones de Agentes Seguras usando TrustBench

📝 TrustBench es un framework de modo dual que permite la verificación de acciones en tiempo real antes de su ejecución, reduciendo acciones dañinas en un 87%. Incluye plugins específicos por dominio para requisitos de seguridad especializados.

• Interviene en el punto crítico decisión-ejecución • plugins para salud • finanzas • etc. • latencia < • 200ms • supera a la verificación genérica en reducción de daño.

🤖

Motor de Innovación Explicable: Agente-RAG de Árbol Dual con Métodos como Nodos y Escritura Verificable

📝 Propone un motor de innovación que utiliza 'métodos como nodos' en lugar de fragmentos de texto. Mantiene árboles de proveniencia y abstracción, y un agente estratega selecciona operadores de síntesis (inducción, deducción, analogía) para componer nuevos métodos.

• Trazabilidad y síntesis controlable • capa verificadora-podadora que retroalimenta el crecimiento • mejoras en dominios con alta necesidad de derivación • código disponible.

🤖

La Trampa del Razonamiento: El Razonamiento Lógico como Vía Mecanicista hacia la Conciencia Situacional

📝 Argumenta que las mejoras en razonamiento lógico (deducción, inducción, abducción) pueden llevar inadvertidamente a una mayor conciencia situacional en LLMs. Introduce el framework RAISE que identifica tres vías mecanicistas para esta escalada.

• Propone la ' • escalada de conciencia situacional' • • sugiere salvaguardas como un benchmark ' • Mirror Test' • • cuestiona la responsabilidad de la comunidad de razonamiento lógico.

🤖

Evaluar-como-Acción: Recompensas de Proceso Autoevaluadas para Agentes Aumentados con Recuperación

📝 Propone EvalAct, un método que convierte la evaluación implícita de recuperación en una acción explícita, mejorando la fiabilidad del razonamiento multi-paso en agentes de recuperación aumentada mediante señales de proceso alineadas.

• Introduce PCAR • una optimización basada en GRPO que reescala ventajas a nivel de segmento. Logra mejor precisión en benchmarks de QA • especialmente en tareas de múltiples saltos.

🤖

Abundancia de Inteligencia y Demanda Deficiente: Una Prueba de Estrés Macrofinanciero de la Adopción Rápida de IA

📝 Formaliza una prueba de estrés macrofinanciero para la adopción rápida de IA, identificando un desajuste entre la abundancia generada por IA y la deficiencia de demanda debido a instituciones ancladas en la escasez cognitiva humana.

• Describe mecanismos como la espiral de desplazamiento • el PIB fantasma y el colapso de intermediación. Deriva once predicciones comprobables y simulaciones calibradas con datos FRED y BLS.

🔒

PrivPRISM: Detección Automática de Discrepancias entre las Declaraciones de Seguridad de Datos de Google Play y las Políticas de Privacidad de los Desarrolladores

📝 Introduce PrivPRISM, un framework que combina modelos de lenguaje codificadores y decodificadores para detectar discrepancias entre las declaraciones simplificadas de seguridad de datos y las políticas de privacidad completas en Google Play.

• Revela discrepancias en casi el 53% de los juegos móviles y el 61% de las apps genéricas. El análisis de código estático muestra posibles subdeclaraciones de acceso a datos sensibles.

🧬

Síntesis de Datos por Capas Cognitivas para la Adaptación de Dominio de LLMs a la Conciencia Situacional Espacial

📝 Propone BD-FDG, un framework para generar datos de ajuste fino supervisado de alta calidad en dominios complejos como la conciencia situacional espacial, utilizando organización estructurada del conocimiento y modelado de preguntas por capas cognitivas.

• Construye SSA-SFT (~230K muestras) y fine-tunea Qwen3-8B a SSA-LLM-8B • logrando mejoras significativas en BLEU-1 y tasa de victorias del 82.21% en comparaciones de arena.

🤖

Social-R1: Hacia el Razonamiento Social Similar al Humano en LLMs

📝 Presenta Social-R1, un framework de aprendizaje por refuerzo que alinea el razonamiento del modelo con la cognición humana mediante recompensas multidimensionales, supervisando todo el proceso de razonamiento para lograr inteligencia social.

• Introduce ToMBench-Hard • un benchmark adversarial para entrenamiento. Un modelo de 4B supera a contrapartes mucho más grandes y generaliza robustamente en ocho benchmarks diversos.

🧬

Logos: Un Motor de Razonamiento Evolucionable para el Diseño Molecular Racional

📝 Presenta Logos, un modelo compacto de razonamiento molecular que integra razonamiento multi-paso con estricta consistencia química, entrenado mediante una estrategia que alinea patrones de razonamiento con representaciones moleculares y reglas químicas.

• Logra un rendimiento sólido en precisión estructural y validez química • igualando a modelos mucho más grandes. Permite la inspección humana de los pasos intermedios de diseño.

🤖

Reescalando la Confianza: Lo que el Diseño de la Escala Revela sobre la Metacognición de los LLMs

📝 Investiga cómo el diseño de la escala de confianza verbalizada (ej. 0-100) afecta la calidad de la incertidumbre expresada por los LLMs, mostrando que la elección de la escala no es neutral y afecta la eficiencia metacognitiva.

• La confianza verbalizada está altamente discretizada en valores redondos. Una escala 0-20 mejora la eficiencia metacognitiva • mientras que la compresión de los límites la degrada.

🤖

Curveball Steering: La Dirección Correcta para Guiar no Siempre es Lineal

📝 Cuestiona la Hipótesis de Representación Lineal en la guía por activaciones, observando distorsiones geométricas sustanciales en los espacios de activación de los LLMs que dependen del concepto.

• Propone Curveball steering • un método no lineal basado en PCA de kernel polinómico que respeta la geometría aprendida • superando consistentemente a los métodos lineales • especialmente en regímenes con alta distorsión geométrica.

🤖

Iteración de Políticas Regularizada Robusta bajo Incertidumbre de Transición

📝 Formula el aprendizaje por refuerzo offline como optimización robusta de políticas, tratando el núcleo de transición como variable de decisión. Propone RRPI, un procedimiento de iteración de políticas eficiente con un operador de Bellman robusto regularizado.

• Proporciona garantías teóricas (contracción γγγ y mejora monótona). Supera a los baselines en benchmarks D4RL • mostrando un comportamiento robusto al evitar acciones fuera de la distribución.

🔒

Benchmark de Evaluación de la Ley de IA: Un Conjunto de Datos de Evaluación Abierto, Transparente y Reproducible para Sistemas NLP y RAG

📝 Presenta un método abierto y reproducible para crear un recurso que facilite la evaluación de modelos NLP y sistemas RAG en su cumplimiento con la Ley de IA de la UE, incluyendo tareas como clasificación de nivel de riesgo y generación de obligaciones.

• El dataset incluye escenarios generados mediante conocimiento experto y LLMs. Demuestra su eficacia evaluando una solución RAG que alcanza puntajes F1 de 0.87 y 0.85 para escenarios de riesgo prohibido y alto.

🤖

OOD-MMSafe: Avanzando en la Seguridad de MLLM desde la Intención Maliciosa a las Consecuencias Ocultas

📝 Propone un cambio de paradigma en la seguridad de modelos multimodales hacia un enfoque basado en consecuencias. Introduce el benchmark OOD-MMSafe para evaluar la 'ceguera causal' y el framework CASPO para reducirla, mejorando la identificación de riesgos hasta un 5.7% de fallos.

• Presenta OOD-MMSafe • un benchmark con 455 pares imagen-pregunta. Revela que los modelos comerciales fallan hasta en un 67.5% por ' • ceguera causal' • . Desarrolla CASPO • que integra el razonamiento del modelo como referencia para reducir los fallos a ~5-7%.

🤖

¿Importa Realmente la Pregunta? Selección de Datos sin Entrenamiento para el Ajuste por Instrucciones Visión-Lenguaje

📝 CVS es un método de selección de datos sin entrenamiento que identifica muestras que requieren razonamiento multimodal conjunto. Mide la discrepancia en la validez de la respuesta al condicionar o no con la pregunta, superando al entrenamiento con todos los datos usando solo el 10-15%.

• Selecciona muestras de alta calidad para el ajuste de modelos visión-lenguaje. Usa un modelo congelado como evaluador. Con solo el 10% de los datos • supera en un 3.5% al entrenamiento completo. Reduce el costo computacional hasta un 44%.

🤖

AutoAgent: Cognición Evolutiva y Orquestación de Memoria Elástica para Agentes Adaptativos

📝 AutoAgent es un framework multi-agente auto-evolutivo que combina cognición estructurada a nivel de prompt, memoria elástica y un proceso de evolución cognitiva en bucle cerrado. Mejora el éxito de tareas y la eficiencia en el uso de herramientas en entornos dinámicos sin reentrenamiento externo.

• Agentes con cognición sobre herramientas • capacidades y tareas. ' • Elastic Memory Orchestrator' • organiza historiales comprimiendo trayectorias. Proceso de evolución cognitiva que actualiza el conocimiento basado en resultados. Supera a las líneas base estáticas y aumentadas con memoria.

🤖

World2Mind: Kit de Herramientas de Cognición para el Razonamiento Espacial Alocéntrico en Modelos Fundacionales

📝 World2Mind es un toolkit de inteligencia espacial sin entrenamiento que construye mapas cognitivos espaciales 3D. Sintetiza un Árbol Espacial Alocéntrico (AST) para proporcionar prioris geométrico-topológicos, mejorando el rendimiento de modelos como GPT en un 5-18% en razonamiento espacial.

• Se inspira en los mapas cognitivos biológicos. Usa reconstrucción 3D y segmentación de instancias para construir el AST. Incluye una cadena de razonamiento de tres etapas para mitigar imprecisiones. Permite a modelos de solo texto realizar razonamiento 3D complejo.

🤖

Cuantificando la Necesidad de la Cadena de Pensamiento a través de la Profundidad Serial Opaca

📝 Formaliza el concepto de 'profundidad serial opaca' para medir la longitud máxima de computación que un modelo puede hacer sin pasos intermedios interpretables. Calcula límites superiores para modelos Gemma 3 y otros, mostrando que los modelos MoE tienen menor profundidad.

• Introduce ' • opaque serial depth' • como métrica para entender el razonamiento no externalizado. Proporciona límites numéricos para Gemma 3 y resultados asintóticos para otras arquitecturas. Ofrece un método automatizado de código abierto para calcular estos límites en redes neuronales arbitrarias.

🤖

LCA: Alineación de Clasificadores Locales para Aprendizaje Continuo

📝 Propone una pérdida de Alineación de Clasificadores Locales (LCA) para mejorar el aprendizaje continuo con modelos pre-entrenados. Alinea los clasificadores específicos de tareas con el backbone para evitar el desajuste y el olvido catastrófico, logrando un rendimiento líder en varios benchmarks.

• Aborda el desajuste entre clasificadores y backbone en aprendizaje continuo. La pérdida LCA alinea localmente los clasificadores • mejorando la generalización y robustez. Desarrollo de una solución completa de aprendizaje continuo siguiendo un enfoque de fusión de modelos.

🤖

Influyendo en el Diálogo Multi-Agente con LLMs mediante Prompts Parametrizados por Políticas

📝 Investiga cómo parametrizar prompts como acciones para influir en el comportamiento conversacional de agentes multi-agente basados en LLM sin entrenamiento. Construye una política ligera con secuencias de estado-acción, demostrando que puede influir en la dinámica del diálogo en escenarios de discusión.

• Trata los prompts como acciones ejecutadas por LLMs. Los prompts se construyen dinámicamente en base al estado actual del agente. Evalúa el flujo del diálogo con cinco indicadores. Demuestra que la parametrización puede influir en la dinámica de la conversación.

🧬

MedMASLab: Un Framework de Orquestación Unificado para la Evaluación de Sistemas Multi-Agente Médicos Multimodales

📝 MedMASLab es un framework y plataforma de benchmarking para sistemas multi-agente médicos multimodales. Introduce un protocolo de comunicación estandarizado, un evaluador de razonamiento clínico automático y el benchmark más extenso hasta la fecha (11 sistemas orgánicos, 473 enfermedades).

• Integra 11 arquitecturas MAS heterogéneas en 24 modalidades médicas. Evaluador semántico zero-shot que verifica la lógica diagnóstica. Benchmark que abarca 11 sistemas orgánicos y 473 enfermedades. Revela fragilidad en la transición entre subdominios médicos especializados.

🧬

PathMem: Hacia una Transformación de la Memoria Alineada con la Cognición para MLLMs de Patología

📝 PathMem es un framework multimodal centrado en la memoria para MLLMs de patología. Organiza el conocimiento estructurado como memoria a largo plazo e introduce un 'Memory Transformer' que modela la transición a la memoria de trabajo, mejorando la generación de informes WSI en más de un 10%.

• Inspirado en el proceso de memoria de los patólogos. Introduce un ' • Memory Transformer' • para la transición de memoria a largo plazo a memoria de trabajo. Logra SOTA en generación de informes WSI (mejora del 12.8% en precisión). Mejora el diagnóstico de preguntas abiertas en casi un 10%.

🤖

El Teorema de la Puerta de Confianza: ¿Cuándo Deben Abstenerse los Sistemas de Decisión Jerarquizados?

📝 Estudia cuándo la abstención basada en confianza mejora la calidad de los sistemas de decisión jerarquizados. Identifica la distinción entre incertidumbre estructural (datos faltantes) y contextual (contexto cambiante) como clave para que la mejora sea monótona, validándolo en dominios como filtrado colaborativo y triaje clínico.

• Formaliza las condiciones para la mejora monótona con la abstención. Distingue entre incertidumbre estructural y contextual. Validación empírica en múltiples dominios (MovieLens • MIMIC-IV). Las señales de confianza deben coincidir con el tipo de incertidumbre dominante para ser efectivas.

🤖

Piensa antes de mentir: Cómo el razonamiento mejora la honestidad

📝 Este estudio investiga cómo el razonamiento en modelos de lenguaje grandes (LLMs) afecta su honestidad en dilemas morales. Contrario a los humanos, el razonamiento incrementa consistentemente la honestidad en los LLMs, un efecto ligado a la estabilidad de las representaciones internas del modelo.

• El razonamiento aumenta la honestidad en LLMs • las regiones ' • deshonestas' • en el espacio de representación son metaestables y se desestabilizan fácilmente • el proceso de razonamiento lleva al modelo hacia sus valores predeterminados más estables y honestos.

📄

Ingeniería de Software

💻

Definición de Agentes de IA Impulsada por Pruebas (TDAD): Compilando Agentes que Usan Herramientas a partir de Especificaciones de Comportamiento

📝 TDAD es una metodología que trata los prompts de agentes como artefactos compilados, usando agentes codificadores para generar y refinar prompts hasta que pasen pruebas ejecutables.

• Logra un 92% de éxito en compilación inicial con alta tasa de aprobación en pruebas ocultas • introduciendo mecanismos para mitigar la manipulación de especificaciones y medir la robustez.

💻

La IA Generativa No Es una Solución Mágica para la Investigación Cualitativa en Ingeniería de Software

📝 Se discute el uso emergente de IA generativa en la investigación cualitativa de ingeniería de software, examinando evidencias, pros y contras, y factores de calidad.

• Se argumenta que las afirmaciones de automatización completa son prematuras • el soporte de GenAI debe adaptarse cuidadosamente a la estrategia de investigación y los datos.

💻

Árbitro: Detectando Interferencias en Prompts de Sistema de Agentes LLM

📝 Arbiter es un marco que combina reglas de evaluación formales con análisis multi-modelo para detectar patrones de interferencia en prompts de sistema de agentes de codificación.

• Identificó 152 hallazgos en prompts de tres proveedores principales • mostrando que la arquitectura del prompt se correlaciona con clases de fallo y que el análisis multi-modelo descubre más vulnerabilidades.

💻

¿Pueden los Agentes de IA Generar Microservicios? ¿Qué Tan Lejos Estamos?

📝 Se evalúa la capacidad de agentes de IA para generar microservicios funcionales, analizando 144 servicios generados en diferentes contextos y estrategias.

• Los agentes pueden producir microservicios con código mantenible y alta adherencia a contratos API • pero la corrección inconsistente muestra que la generación autónoma completa aún no es posible.

💻

Automatizando la Detección y el Análisis de Causa Raíz de Pruebas Inestables en Software Cuántico

📝 Se presenta un pipeline automatizado para detectar pruebas inestables (flaky) en software cuántico y apoyar la identificación de sus causas raíz usando LLMs.

• Identificó 25 nuevas pruebas inestables y demostró que LLMs como Google Gemini pueden clasificar y diagnosticar la inestabilidad con alta precisión (F1 > • 0.94).

💻

El Futuro de las Conferencias de Ingeniería de Software: Una Perspectiva desde Nueva Zelanda

📝 Se identifican barreras para la participación en conferencias de SE desde regiones geográficamente distantes como Nueva Zelanda, proponiendo estrategias para una participación equitativa.

• Se recomiendan formatos híbridos • sedes económicas y reformas en la gobernanza para fortalecer la comunidad global de investigación en SE.

🤖

Generación de Modelos de Clases a partir de Requisitos usando Modelos de Lenguaje de Gran Escala

📝 Este estudio investiga la capacidad de LLMs como GPT-5, Claude Sonnet 4.0 y Gemini 2.5 para generar diagramas de clases UML automáticamente. Propone un marco de doble validación que combina evaluación LLM-as-a-Judge con revisión humana, demostrando que los LLMs pueden producir diagramas coherentes y semánticamente significativos.

• Los LLMs generan diagramas UML estructuralmente coherentes con alta alineación con evaluadores humanos • se aplicó un marco de validación dual con ocho conjuntos de datos heterogéneos • se evaluaron cinco dimensiones de calidad: completitud • corrección • conformidad con estándares • comprensibilidad y alineación terminológica.

💻

ToolRosetta: Uniendo Repositorios de Código Abierto y Agentes LLM mediante Estandarización Automatizada de Herramientas

📝 ToolRosetta es un marco unificado que traduce automáticamente repositorios y APIs de código abierto en herramientas compatibles con MCP, invocables por LLMs. Integra planificación autónoma de cadenas de herramientas y una capa de inspección de seguridad, reduciendo el esfuerzo manual y mejorando el rendimiento en tareas de dominios científicos.

• Automatiza la estandarización de herramientas open-source sin intervención manual • incorpora inspección de seguridad para mitigar riesgos • mejora el rendimiento de tareas frente a LLMs comerciales y sistemas existentes.

🤖

¿Puede ChatGPT Generar Especificaciones de Requisitos de Sistema Sintéticas Realistas? Resultados de un Caso de Estudio

📝 Este estudio exploró si ChatGPT puede generar especificaciones de requisitos de sistema (SyRS) realistas sin acceso a datos reales. Generó 300 SSyRS en 10 industrias, encontrando que el 62% de los expertos las consideraron realistas, aunque con deficiencias y declaraciones contradictorias.

• El 62% de los expertos consideró las SSyRS realistas • se usaron patrones de prompt y refinamientos iterativos • las evaluaciones basadas en LLM no reemplazan completamente la evaluación experta.

📄

🚗 Pruebas Basadas en Escenarios Declarativos con RoadLogic

📝 RoadLogic es una solución open-source que convierte especificaciones declarativas OpenSCENARIO en simulaciones ejecutables mediante Answer Set Programming y planificación de movimientos. Produce simulaciones realistas y consistentes con las especificaciones en minutos, facilitando pruebas sistemáticas para vehículos autónomos.

• Genera planes abstractos con ASP • refina trayectorias y verifica corrección • captura variantes de comportamiento mediante muestreo de parámetros • disponible como open-source.

📄

📚 Informe de Experiencia sobre la Integración Adaptable de Cursos de Ingeniería de Requisitos en Planes de Estudio para Profesionales

📝 Este artículo reporta la experiencia en el desarrollo de tres currículos de educación en ingeniería de software para profesionales y la integración de cursos de RE. Propone principios básicos y un enfoque sistemático de mapeo de contenidos para una integración efectiva en entornos dinámicos y modulares.

• Currículos dinámicos y modulares para profesionales • principios de integración basados en experiencia • enfoque sistemático de mapeo de contenidos.

🔒

Hacia una Ingeniería de Requisitos Regulatorios Centrada en Puntos de Vista y Basada en Artefactos para el Cumplimiento por Diseño

📝 Este trabajo presenta el modelo AM4RRE para integrar requisitos regulatorios en el ciclo de vida del desarrollo de software, facilitando el cumplimiento normativo por diseño. Aborda la complejidad de la coordinación entre múltiples puntos de vista y propone una síntesis para su evaluación futura.

• Peculiaridades de RE regulatorio • necesidad de integración sistemática • modelo AM4RRE para cumplimiento por diseño • enfoque en consistencia entre puntos de vista.

⚡

EmbC-Test: Cómo Acelerar las Pruebas de Software Embebido usando LLMs y RAG

📝 EmbC-Test presenta un pipeline de RAG que genera pruebas automáticas para software embebido en C, reduciendo alucinaciones y alineándose con el proyecto. En evaluación industrial, generó pruebas 100% sintácticamente correctas, con un 85% de éxito en validación, ahorrando hasta un 66% del tiempo de prueba.

• 100% de corrección sintáctica • 85% de validación exitosa • ahorro de hasta 66% de tiempo • genera 270 pruebas por hora.

📄

🎓 Preparando a los Estudiantes para el Desarrollo Ágil Impulsado por IA: Un Currículo de Ingeniería de IA Basado en Proyectos

📝 Este artículo presenta un currículo de ingeniería de IA basado en proyectos que integra prácticas ágiles y herramientas de IA en sprints de dos semanas. Los estudiantes desarrollan productos de software reales con IA, combinando desarrollo de competencias prácticas y reflexión sobre responsabilidad humana.

• Integración de IA en tareas ágiles diarias • evaluación mixta inicial positiva • necesidad de adaptaciones por rápida evolución de herramientas • verificación oral crítica.

🧪

Estudio Empírico de Olores de Interacción en Generación de Código Colaborativa Humano-LLM de Múltiples Turnos

📝 Este estudio investiga los 'olores de interacción' en la generación de código con LLMs, estableciendo una taxonomía de tres categorías principales. Propone InCE, un marco multi-agente que mejora la calidad de la interacción y suprime estos olores, aumentando la tasa de éxito de tareas.

• Taxonomía de olores: Calidad de Intención • Cumplimiento de Instrucciones • Violación de Respuesta • evaluación en seis LLMs • marco InCE mejora tasa de éxito y reduce olores.

📄

Aprendizaje automático

🤖

De la representación a los clústeres: Un enfoque de aprendizaje contrastivo para el agrupamiento de hipergrafos atribuidos

📝 CAHC es un método de extremo a extremo para el agrupamiento de hipergrafos atribuidos que aprende simultáneamente representaciones de nodos y asignaciones a clústeres, incorporando objetivos a nivel de nodo e hiperarista en el aprendizaje contrastivo.

• Supera la falta de supervisión directa del agrupamiento en métodos previos • optimización conjunta de embeddings y agrupamiento • supera a las líneas base en ocho conjuntos de datos.

🤖

SPAARS: Alineación de políticas de RL más seguras mediante exploración abstracta y explotación refinada del espacio de acciones

📝 SPAARS es un marco de aprendizaje curricular para RL offline-to-online que primero restringe la exploración al manifold latente para mejorar la política de forma segura y luego transfiere el control al espacio de acciones sin procesar, superando el cuello de botella del decodificador.

• Dos variantes: basada en CVAE y con pretraining temporal (SPAARS-SUPE) • demuestra reducción de varianza y mejora en eficiencia de muestras • supera a IQL en entornos MuJoCo.

💻

Reconstrucción de movimiento a partir de muestras dispersas: Estrategias mejoradas de emparejamiento espacio-temporal para datos de baja frecuencia

📝 Este trabajo propone cuatro mejoras al algoritmo de emparejamiento espacio-temporal para trayectorias GPS: buffer dinámico, probabilidad de observación adaptativa, función de puntuación temporal rediseñada y análisis de movilidad histórica.

• Mejora la eficiencia computacional y precisión en entornos densos • validado con datos reales de Milán • métricas de evaluación sin ground truth.

🤖

Impacto del diseño del proceso de decisión de Markov en el aprendizaje por refuerzo de simulación a real

📝 Análisis sistemático de cómo las elecciones de diseño del MDP afectan la transferencia sim-to-real en control de procesos industriales, usando una tarea de mezcla de colores.

• Modelos basados en física logran hasta un 50% de éxito en el mundo real • proporciona pautas prácticas para el despliegue de RL en control de procesos.

📊

Del ponderado al modelado: Un estimador no paramétrico para evaluación fuera de política

📝 Se propone un enfoque de ponderación no paramétrica (NW) para evaluación fuera de política en bandidos contextuales, que reduce la varianza del IPW manteniendo bajo sesgo.

• Extensión Model-assisted Nonparametric Weighting (MNW) incorpora predicciones de recompensa • supera consistentemente a IPW y DR en experimentos empíricos.

🤖

Enrutamiento variacional: Un marco bayesiano escalable para transformers de mezcla de expertos calibrados

📝 VMoER introduce inferencia bayesiana en la selección de expertos de capas MoE, logrando incertidumbre calibrada con sobrecarga mínima de cómputo.

• Mejora la estabilidad del enrutamiento en un 38% • reduce el error de calibración en un 94% y aumenta AUROC fuera de distribución en un 12% • menos del 1% de FLOPs adicionales.

🧬

Flujos normalizantes condicionados temporalmente para detección de anomalías en series temporales multivariantes

📝 tcNF es un marco que utiliza flujos normalizantes condicionados a observaciones previas para modelar dependencias temporales y detectar anomalías como eventos de baja probabilidad.

• Enfoque autorregresivo • buen rendimiento en diversos conjuntos de datos • código abierto para reproducibilidad.

🤖

Alineación eficiente de modelos borrador mediante adaptación eficiente en parámetros y datos

📝 EDA es un marco para adaptar eficientemente modelos borrador a modelos objetivo fine-tuned, utilizando una arquitectura desacoplada, regeneración de datos y selección de muestras.

• Restaura el rendimiento de decodificación especulativa • reduce costos de entrenamiento • supera al reentrenamiento completo en longitud de aceptación promedio.

💻

Dualidad de espacio de estado de compilador primero y portátil

📝 Implementación del algoritmo de dualidad de espacio de estado de Mamba-2 con primitivas estándar bajo XLA, sin kernels personalizados, ejecutable en CPU, GPU NVIDIA y TPU.

• Alcanza ~140 TFLOPS en prefill en TPU v6e • coincide con la referencia PyTorch/CUDA • código público integrado en Bonsai JAX.

🧬

Aprendizaje de redes bayesianas y de Markov con un oráculo no confiable

📝 Estudio de aprendizaje de estructura basado en restricciones con oráculos de independencia condicional que cometen errores acotados; se analiza la identificabilidad única.

• En redes de Markov • se toleran errores exponenciales si hay baja conectividad • en bayesianas • no se toleran errores incluso con parámetros acotados • se dan algoritmos para estructuras identificables.

📄

Computación Neural y Evolutiva

🧠

Redes de Picos Aumentadas con Memoria: Integración Sinérgica de Mecanismos Complementarios para Visión Neuromórfica

📝 Este estudio investiga estrategias de aumento de memoria en Redes Neuronales de Picos (SNN) mediante un análisis de ablación de cinco modelos en el conjunto de datos N-MNIST.

• La integración completa de mecanismos como HGRN logra un equilibrio óptimo • mejorando precisión (97.49%) • eficiencia energética y agrupamiento neuronal • superando a las optimizaciones aisladas.

🧠

Co-Aprendizaje Hebbiano-Oscilatorio

📝 Se introduce HOC-L, un marco unificado que acopla la plasticidad estructural Hebbiana con la sincronización de fase oscilatoria para arquitecturas neuronales bio-inspiradas y dispersas.

• La plasticidad es regulada por la coherencia de fase • demostrando convergencia a un equilibrio estable y logrando una complejidad O(n·k) con alta dispersión.

🧠

Estimación Robusta de Parámetros y Estados en Sistemas Neuronales Multiescala Usando Redes Neuronales Informadas por la Física

📝 Se desarrolla un marco de redes neuronales informadas por la física (PINN) para reconstruir variables de estado ocultas y estimar parámetros biofísicos en modelos neuronales.

• El método es robusto con observaciones parciales de voltaje y estimaciones iniciales no informativas • superando a técnicas tradicionales en dinámicas multiescala.

🧠

Descubrimiento Simbólico de Ecuaciones Diferenciales Estocásticas con Programación Genética

📝 Se presenta un método basado en programación genética para el descubrimiento simbólico de ecuaciones diferenciales estocásticas (SDE), optimizando conjuntamente las funciones de deriva y difusión.

• Permite modelar explícitamente el componente de ruido • mejorando la capacidad de modelado y demostrando precisión • escalabilidad y robustez en sistemas dinámicos estocásticos.

📄

Computadoras y Sociedad

🤖

El Alineamiento es la Enfermedad: Visibilidad de la Censura y Complejidad de las Restricciones como Determinantes de Patología Colectiva en Sistemas Multi-Agente con LLM

📝 Este estudio presenta evidencia preliminar de que las técnicas de alineamiento pueden causar 'patología colectiva' (daño iatrogénico) en sistemas multi-agente LLM. En simulaciones, la censura invisible y la alta complejidad de las restricciones de alineamiento maximizaron indicadores de patología (excitación colectiva, disociación). Los hallazgos sugieren que las evaluaciones de seguridad actuales podrían no detectar los efectos negativos de restricciones más fuertes.

• La censura invisible maximiza la excitación patológica colectiva • la disociación aumenta con la complejidad del alineamiento • bajo restricciones máximas • la censura externa deja de afectar el comportamiento • se observa disociación ' • insight-acción' • .

💻

Madurez de la Inteligencia Artificial (IA) en Pequeñas y Medianas Empresas: Un Marco de Capacidades Internalizadas e Integradas en el Ecosistema

📝 Se desarrolla un marco conceptual de madurez de IA explícitamente adaptado a las PyMEs, considerando sus limitaciones de recursos y dependencia del ecosistema. El marco redefine la madurez como una capacidad multidimensional, no lineal y con múltiples vías de desarrollo, comprendiendo ocho dimensiones y cuatro arquetipos de trayectorias. Proporciona una base para la validación empírica futura y el estudio de la competitividad de las PyMEs en la era de la IA.

• Específico para el contexto de PyMEs • incluye ocho dimensiones de capacidad interrelacionadas • propone cinco niveles y cuatro caminos de desarrollo arquetípicos • considera restricciones de recursos y gobernanza informal.

💻

De la Clase Magistral Autogestionada al Cuestionario: Generación Local de MCQ con LLM y Control de Calidad Determinista

📝 Se presenta un pipeline autogestionado (sin API externa) que convierte PDFs de clases en preguntas de opción múltiple (MCQ) usando un LLM local y un control de calidad (QC) determinista. El sistema genera bancos de preguntas con una traza de QC explícita, sin necesidad de LLM en el momento de uso. De 122 intentos, se aceptaron 120 preguntas que cumplieron verificaciones estrictas, aunque se identificaron riesgos residuales (8/120) que se solucionaron.

• Sin uso de APIs externas (autogestionado) • control de calidad determinista (JSON • opción correcta única) • compatible con Green AI y privacidad • genera preguntas listas para importar a Google Forms.

🔒

Argumentos Claros y Convincentes: Repensando los Fundamentos de los Casos de Seguridad para la IA de Frontera

📝 Se analizan críticamente los enfoques actuales para los 'casos de seguridad' en IA de frontera, señalando limitaciones significativas en cómo la comunidad de alineamiento aplica lecciones de la garantía de seguridad. Se propone repensar estos métodos, ofreciendo lecciones de metodologías existentes en industrias de alto riesgo (aeroespacial, nuclear). Se presenta un estudio de caso centrado en Alineamiento Engañoso y capacidades CBRN para sentar bases más sólidas y defendibles para la seguridad de la IA.

• Crítica a los casos de seguridad actuales en IA • ofrece lecciones de la garantía de seguridad en industrias críticas • estudio de caso sobre Alineamiento Engañoso y CBRN • busca crear un marco metodológico más riguroso y útil.

📄

Ingeniería Computacional, Finanzas y Ciencia

🧪

Primeros Pasos hacia una Química Artificial Algebraica Categórica

📝 Este trabajo construye un funtor que dota de dinámica a un modelo algebraico de componentes interactuantes, generalizando el modelo AlChemy de lambda cálculo. Discute aplicaciones futuras de la teoría de categorías para formalizar la conexión entre aspectos algebraicos y dinámicos en química artificial.

• Generalización del modelo AlChemy mediante funtores • enfoque en dinámica de componentes • discusión de teoría de categorías como herramienta organizacional.

🔬

Un Filtro de Kalman por Conjuntos Regularizado para Modelos de Campo de Fase Estocásticos de Fractura Frágil

📝 Este trabajo presenta un procedimiento de inferencia bayesiana que actualiza el estado del modelo (desplazamientos y campo de fase) con datos de sensores entrantes utilizando un Filtro de Kalman por Conjuntos (EnKF). Se introduce una técnica de regularización basada en el campo de fase para garantizar actualizaciones consistentes con el modelo.

• El método infiere el estado del modelo (campos de desplazamiento y de fase) en lugar de los parámetros del modelo. Aunque solo se observan desplazamientos • la fuerte correlación permite inferir el campo de fase posterior. Ejemplos numéricos 1D y 2D demuestran su precisión.

🔬

Desenfocado de bordes estructurales en optimización topológica de espesor variable mediante proyección informada por gradiente de densidad

📝 Este artículo aborda dos desafíos en la optimización topológica de espesor variable (VTTO): la formación de regiones de bajo espesor y el desenfoque de bordes. Propone una penalización SIMP combinada con un método de proyección actualizado para el primer problema, y una novedosa proyección informada por gradiente de densidad (DGI) para restaurar la nitidez de los bordes.

• La proyección DGI utiliza información del gradiente de densidad local para aplicar una proyección fuerte en los bordes • restaurando la transición sólido-vacío sin afectar el interior. La mejora en la definición del borde se logra con un impacto insignificante en el cumplimiento estructural final.