多智能体工程(AE+X)
以评估为先的研究计划:配置、测试与部署多智能体系统,使其在真实工作流中稳定产出可靠结果。
我的 3–5 年研究计划是 Agentic Engineering(AE+X):目标不只是“使用”AI/LLM,而是把它们当作可工程化系统来 设计—评估—部署,让多智能体架构在真实工作流中稳定地产生可依赖的结果。
核心主题:
- 面向多智能体系统的评估与基准(可靠性、校准、失败模式与误差分析)
- 面向传播研究的“人类 + LLM”混合编码与 QA:流程化、可复现、可审计
- 把治理作为一等输出(文档、日志、版本控制、可追责)
代表性论文与工作论文(2025+)
-
收听:音频概览
提示:播放器仅在展开后加载音频,以保持页面加载速度。一句话要点: 一个系统化、分层的误差纠正框架,用于提升领域特定 AI/LLM 输出的稳健性。如果你更喜欢听而不是读:音频概览会用双人对谈的方式快速介绍研究问题、方法与关键发现。 -
收听:音频概览
提示:播放器仅在展开后加载音频,以保持页面加载速度。一句话要点: 用“置信度×多样性”的视角,对 LLM 驱动的复杂质性编码进行可靠性评估与校准。如果你更喜欢听而不是读:音频概览会用双人对谈的方式快速介绍研究问题、方法与关键发现。 - A Confidence–Diversity Framework for Calibrating AI Judgement in Accessible Qualitative Coding Tasks
收听:音频概览
提示:播放器仅在展开后加载音频,以保持页面加载速度。一句话要点: 在可访问的质性编码任务中,用“置信度×多样性”框架校准 AI 判断,在准确性与不确定性之间取得平衡。如果你更喜欢听而不是读:音频概览会用双人对谈的方式快速介绍研究问题、方法与关键发现。 -
收听:音频概览
提示:播放器仅在展开后加载音频,以保持页面加载速度。一句话要点: 在 AI 时代,“东方主义”从简单的西方/东方二元转向更隐蔽的英语中心主义,重新组织可见性与话语权。如果你更喜欢听而不是读:音频概览会用双人对谈的方式快速介绍研究问题、方法与关键发现。
完整清单(含引用导出/分享按钮)见:研究。