Agentic AI 다이제스트 - 2026-05-28

해당 날짜의 arXiv 발표에서 선별한 랭킹 브리프입니다. Cortiq은 주제 적합도, 주저자 맥락, 공개 연구 신호를 함께 봅니다.

Agentic AI

1. Do Agents Think Deeper? A Mechanistic Investigation of Layer-Wise Dynamics in Sequential Planning

2. AsyncTool: Evaluating the Asynchronous Function Calling Capability under Multi-Task Scenarios

3. Got a Secret? LLM Agents Can't Keep It: Evaluating Privacy in Multi-Agent Systems

4. A Unified Framework for the Evaluation of LLM Agentic Capabilities

5. DisasterBench: Benchmarking LLM Planning under Typed Tool Interface Constraints

6. A Query Engine for the Agents

7. When Does Memory Help Multi-Trajectory Inference for Tool-Use LLM Agents?

8. Do Agents Know What They Can't Do? Evaluating Feasibility Awareness in Tool-Using Agents

9. Adaptive Multimodal Agents-Based Framework for Automatic Workflow Execution

10. ResearchMath-14K: Scaling Research-Level Mathematics via Agents

11. Beyond One Path: Evaluating and Enhancing Divergent Thinking in Interactive LLM Agents

12. Agent Explorative Policy Optimization for Multimodal Agentic Reasoning

13. AgenticVBench: Can AI Agents Complete Real-World Post-Production Tasks?

14. Voluntary Collusion with Secret Tools in Competing LLM Agents

15. A Policy-Driven Runtime Layer for Agentic LLM Serving

16. SKILLC: Learning Autonomous Skill Internalization in LLM Agents via Contrastive Credit Assignment

17. Plant, Persist, Trigger: Sleeper Attack on Large Language Model Agents

18. Extrapolative Weight Averaging Reveals Correctness-Efficiency Frontiers in Code RL

19. LCO: LLM-based Constraint Optimization for Safer Agentic LLMs in Real-world Tasks

20. StoryMI: Steerable Multi-Agent Therapeutic Dialogue Generation

21. TRACES: Proactive Safety Auditing for Multi-Turn LLM Agents via Trajectory-State Modeling

22. Skill0.5: Joint Skill Internalization and Utilization for Out-of-Distribution Generalization in Agentic Reinforcement Learning

23. Rethinking Memory as Continuously Evolving Connectivity

24. Do Agents Need Semantic Metadata? A Comparative Study in Agentic Data Retrieval

25. CyberJurors: A Multi-Agent Simulation Task for E-Commerce Disputes Verdict

26. LACUNA: Safe Agents as Recursive Program Holes

27. OralAgent: Integrating Reasoning, Tools, and Knowledge for Interactive Dental Image Analysis

28. MACReD: A Multi-Agent Collaborative Reasoning Framework for Reaction Diagram Parsing

29. VeriTrip: A Verifiable Benchmark for Travel Planning Agents over Unstructured Web Corpora

30. LegalGraphRAG: Multi-Agent Graph Retrieval-Augmented Generation for Reliable Legal Reasoning

31. Why LLMs Fail at Causal Discovery and How Interventional Agents Escape

32. Intelligence as Managed Autonomy: Failure, Escalation, and Governance for Agentic AI Systems

33. EgoBench: An Interactive Egocentric Multimodal Benchmark for Tool-Using Agents

34. MolLingo: Molecule-Native Representations for LLM-Powered Scientific Agents

35. Harness-Bench: Measuring Harness Effects across Models in Realistic Agent Workflows

36. Agentic Active Omni-Modal Perception for Multi-Hop Audio-Visual Reasoning

37. Plan Before Search: Search Agents Need Plan

38. From Knowing to Doing: A Memory-Controlled Benchmark for LLM Trading Agents on Stock Markets

39. An LLM-Based Assistance System for Intuitive and Flexible Capability-Based Planning

40. TRACER: Turn-level Regret Matching with Inner Reinforcement Credit for Cooperative Multi-LLM Reasoning

41. Calibrating Conservatism for Scalable Oversight

42. Cyclical Entropy Eruption: Entropy Dynamics in Agent Reinforcement Learning

43. RAG-Coding: Enhancing LLM Medical Coding with Structured External Knowledge

44. Chain-based Adaptive Reconfiguration Over Lattices for Hallucination Reduction

45. Roles with Rails: Contract-Preserving Role Evolution in Multi-Agent Structured Reasoning

46. GUI-CIDER: Mid-training GUI Agents via Causal Internalization and Density-aware Exemplar Reselection

47. OmniVerifier-M1: Multimodal Meta-Verifier with Explicit Structured Recalibration

48. OphIn-500K: Curating Web-Scale Visual Instructions for Scaling Ophthalmic Multimodal Large Language Models

49. Mags-RL: Wearing Multimodal LLMs a Magnifying Glass via Agentic Reinforcement Learning For Complex Scene Reasoning

50. Mixture-of-Experts Knowledge Graph Retrieval-Augmented Generation for Multi-Agent LLM-based Recommendation

51. SCALE-COMM: Shared, Contrastively-Aligned Latent Embeddings for MARL Communication

52. Unified Synthesis of Compositional Speech and Sound from Free-Form Text Prompts

53. DynaSchedBench: Calibrated Dynamic Scheduling Benchmarks and Observability Paradox in LLM-based Scheduling Agents

54. Discovery Agents for Real-Time Analytics: Toward Proactive Insight Systems

55. SkillGrad: Optimizing Agent Skills Like Gradient Descent

56. Diagnosing Live Within-Policy Instruction Conflicts in LLM Agents with Witnessed Resolution Profiles

57. Revealing Algorithmic Deductive Circuits for Logical Reasoning

58. TCP-MCP: Landscape-Guided Co-Evolution of Prompts and Communication Topologies for Multi-Agent Systems

59. Reasoning Matters: Mitigate Hallucination in Multimodal Large Reasoning Models via Reasoning-Conditioned Preference Optimization

60. Zipping the Thought: When and How Compressed Reasoning Data Works in LLM Post-Training

61. Examining Agents' Bias Amplification versus Suppression in Multi-Agent Systems

62. Defending LLM-based Multi-Agent Systems Against Cooperative Attacks with Sentence-Level Rectification

63. Human-like in-group bias in instruction-tuned language model agents

64. OR-Space: A Full-Lifecycle Workspace Benchmark for Industrial Optimization Agents

65. Better Accuracies, Worse Reasoning: A Step-Level Audit of Medical Chain-of-Thought Distillation

66. From paper to benchmark: agentic, framework-based reproduction of under-specified methods in machine health intelligence

67. You Live More Than Once: Towards Hierarchical Skill Meta-Evolving

68. A Matter of TASTE: Improving Coverage and Difficulty of Agent Benchmarks

69. The Energy Blind Spot: NVIDIA's Flagship Edge AI Hardware Cannot Support Process-Level Energy Attribution

70. Restoring the Sweet Spot: Pass-Rate Weighted Self-Distillation for LLM Reasoning

71. Knowing When to Ask: Segment-Level Credit Assignment for LLM Tool Use

72. Transformers Provably Learn to Internalize Chain-of-Thought

73. Do Models Know Why They Changed Their Mind? Interpretability and Faithfulness of Chain-of-Thought Under Knowledge Conflict

74. KVoiceBench, KOpenAudioBench, and KMMAU: Agent-Driven Korean Speech Benchmarks for Evaluating SpeechLMs

75. Personality, Role, and Expressive Style in Large Language Models: An Interactionist Analysis

76. Ask Now, Use Later: Benchmarking the Proactivity Gap in Long-Lived LLM Agents

77. CIRF: Tokenizing Chain-of-Thoughts into Reusable Functional Units for Efficient Latent Reasoning in Large Language Models

78. Grimlock: Guarding High-Agency Systems with eBPF and Attested Channels

79. HARP: Measuring Harm Amplification in Multi-Agent LLM Systems