Agentic AI digest - 2026-06-03

A ranked brief from the day's arXiv listing. Cortiq weighs topical fit, lead-author context, and public research signals before the issue is published.

Agentic AI

1. Adaptive Latent Agentic Reasoning

2. Enhancing Operational Safety via Agentic Dialogue Hazard Identification Analysis

3. Toward a Modular Architecture for Embedded AI Agent Systems at the Edge

4. Inducing Reasoning Primitives from Agent Traces

5. What Makes Interaction Trajectories Effective for Training Terminal Agents?

6. Economy of Minds: Emerging Multi-Agent Intelligence with Economic Interactions

7. KForge: LLM-Driven Cross-Platform Kernel Generation for AI Accelerators

8. Multi$^2$: Hierarchical Multi-Agent Decision-Making with LLM-Based Agents in Interactive Environments

9. MUSE: A Unified Agentic Harness for MLLMs

10. EvoDrive: Pareto Evolution for Safety-Critical Autonomous Driving via Self-Improving LLM Agents

11. EvoDS: Self-Evolving Autonomous Data Science Agent with Skill Learning and Context Management

12. FederatedSkill: Federated Learning for Agentic Skill Evolution

13. Tool-Aware Optimization with Entropy Guidance for Efficient Agentic Reinforcement Learning

14. Diagnosing Knowledge Gaps in LLM Tool Use: An Agentic Benchmark for Novel API Acquisition

15. Beyond Ideal Instruction: A Comprehensive Framework for Evaluating LLMs in Realistic Interactions

16. Synthesize and Reward -- Reinforcement Learning for Multi-Step Tool Use in Live Environments

17. Agentic Chain-of-Thought Steering for Efficient and Controllable LLM Reasoning

18. Traj-Evolve: A Self-Evolving Multi-Agent System for Patient Trajectory Modeling in Lung Cancer Early Detection

19. Think-Before-Speak: From Internal Evaluation to Public Expression in Multi-Agent Social Simulation

20. CP-Agent: Context-Aware Multimodal Reasoning for Cellular Morphological Profiling under Chemical Perturbations

21. TSQAgent: Rating Time Series Data Quality via Dedicated Agentic Reasoning

22. LAP: An Agent-to-Instrument Protocol for Autonomous Science

23. PhotoCraft: Agentic Reasoning with Hierarchical Self-Evolving Memory for Deep Image Search

24. MemTrain: Self-Supervised Context Memory Training

25. SagaQA: A Multi-hop Reasoning Benchmark for Long-form Narrative Understanding in TV Series

26. Inference Cost Attacks for Retrieval-Augmented Large Language Models

27. Cross-Vendor Sola ISPM Benchmark: Evaluating Agentic AI for Federated Identity Security Reasoning

28. MemoGen: Can Past Experience Improve Future Text-to-Image Generation?

29. VirtualMLE: A Virtual ML Engineer that Optimizes Sequential Recommenders

30. eMEM: A Hybrid Spatio-Temporal Memory System For Embodied Agents

31. When Helping Hurts and How to Fix It: Multi-Agent Debate for Data Cleaning

32. What Benchmarks Don't Measure: The Case for Evaluating Abstention Competence in Autonomous Agents

33. AUDITFLOW: Executable Symbolic Environments for Structured Financial Reporting Verification

34. SkillDAG: Self-Evolving Typed Skill Graphs for LLM Skill Selection at Scale

35. DELTAMEM: Incremental Experience Memory for LLM Agents via Residual Trees

36. EvoTrainer: Co-Evolving LLM Policies and Training Harnesses for Autonomous Agentic Reinforcement Learning

37. Uncertainty-Aware Clarification in LLM Agents with Information Gain

38. ClinicalMC: A Benchmark for Multi-Course Clinical Decision-Making with Large Language Models

39. LEAP: Supercharging LLMs for Formal Mathematics with Agentic Frameworks

40. StepFinder: A Temporal Semantic Framework for Failure Attribution in Multi-Agent Systems

41. Overlaying Governance: A Compositional Authorization Framework for Delegation and Scope in Agentic AI

42. Cross-Lingual Token Arbitrage: Optimizing Code Agent Context Windows via Local LLM Preprocessing

43. The DeepSpeak-Agentic Dataset

44. From Control Boundary to Insurance Claim: Reconstructing AI-Mediated Losses Through the CER Framework

45. $Ψ$-Bench: Evaluating Persona-Sensitive Influencing in Persuasive Dialogues

46. Libra: Efficient Resource Management for Agentic RL Post-Training

47. Validation-Gated Multi-Agent Governance for Online Adaptation of Thermal-Hydraulic Surrogate Models under Operating-Regime Shift

48. Trading Human Curation for Synthetic Augmentation in RLVR

49. Skill-RM: Unifying Heterogeneous Evaluation Criteria via Agent Skill

50. The Deliberative Illusion: Diagnosing Factual Attrition and Stance Homogenization in Multi-Agent LLM Deliberation

51. Framing Migration News with LLMs: Structured CoT as a Support for Human Interpretation

52. HybridThinker: Efficient Chain-of-Thought Reasoning via Compressed Memory and Transient Thought Steps

53. A New Framework for Cybersecurity Refusals in AI Agents

54. What You Approve Is What Executes: Consent Integrity for Black-Box LLM Agents

55. SkillGuard: A Permission Framework for Agent Skills

56. FORGE: Multi-Agent Graduated Exploitation and Detection Engineering

57. MetaWorld: Scaling Multi-Agent Video World Model from Single-view Video Data

58. JAVEDIT: Joint Audio-Visual Instruction-Guided Video Editing with Agentic Data Curation

59. \textsc{CR-Seg}: Attention-Guided and CoT-Enhanced Coarse-to-Refined Reasoning Segmentation

60. Benchmarking Visual State Tracking in Multimodal Video Understanding

61. Do Matching Mechanisms Work with LLM Agents?

62. Causal Mirage Equilibrium in Agentic Machine Intelligence

63. Skill Is Not Document: A Query-Conditional Benchmark and Two-Stage Retriever for LLM Agent Skill Routing

64. Taiji: Pareto Optimal Policy Optimization with Semantics-IDs Trade-off for Industrial LLM-Enhanced Recommendation

65. CARVE: Certified Affordable Repair of Vetoed Maneuvers via Envelopes for Interactive Driving

66. BotDirector: Robot Storytelling Across the Symmetrical Reality with Multi-modal Interactions

67. Revisiting Embodied Chain-of-Thought for Generalizable Robot Manipulation

68. Self-Refining Agentic Reinforcement Learning for Vision-Conditioned UAV Navigation

69. An Asymptotic Theory of Chain-of-Thought in In-Context Learning

70. Proof-Refactor: Refactoring Generated Formal Proofs into Modular Artifacts

71. Entropy Gate: Entropy Quenching for Near-Lossless Token Compression in LLM Pipelines

72. Learn from Your Mistakes: Tree-like Self-Play for Secure Code LLMs

73. OVO-S-Bench: A Hierarchical Benchmark for Streaming Spatial Intelligence in Multimodal LLMs

74. ToolGate: Token-Efficient Pre-Call Control for Tool-Augmented Vision-Language Agents

75. GTBench: A Curriculum-Grounded Benchmark for Evaluating LLMs as Mathematical Research Assistants in Graph Theory

76. ThoughtFold: Folding Reasoning Chains via Introspective Preference Learning

77. Imaginative Perception Tokens Enhance Spatial Reasoning in Multimodal Language Models

78. FGRPO: Federated GRPO with Adaptive Aggregation on Non-IID Data

79. Post-Hoc Robustness for Model-Based Reinforcement Learning