今日一句话
本期为阅读记录与要点摘录;后续会选 1–2 条进一步展开。
最重要的 10 条(新闻)
- OpenAI 与 Cerebras 合作 推理/硬件合作动向,可能影响延迟、成本与高速推理的可获得性。
- 差分变压器V2 面向长上下文效率改进的注意力变体,可与标准 Transformer 做对照。
- 对话式考试:AI 时代可扩展的评估设计 一种面向 AI 时代的评估形式,尽量保持测评的有效性。
- Open Responses:你需要了解什么 多模型对照与整合的工作流范式:用多样性拓展思路,用验证收敛结论。
- 用大语言模型评估高等教育课程的 21 世纪能力:性能基准与推理式提示策略 用 LLM 读课程材料评估能力覆盖,并提供基准与提示策略对照。
- aiPlato:用于物理作业的 AI 辅导与分步反馈系统 物理作业辅导系统:强调分步反馈/支架,而非直接给完整答案。
- 拿出你的计算器:用“LLM 学生模拟”估计题目真实难度 用“LLM 学生模拟”估计题目难度:适用于数据不足场景,但需要校准。
- AI 迎合:用户如何标记与回应 整理用户识别/反馈“迎合型”行为的可观测信号,可用于信任与安全评估。
AI 工具 / 模型更新
-(本窗口暂无条目。)
全部列表(新闻)(8 条)
推理/硬件合作动向,可能影响延迟、成本与高速推理的可获得性。
2
面向长上下文效率改进的注意力变体,可与标准 Transformer 做对照。
多模型对照与整合的工作流范式:用多样性拓展思路,用验证收敛结论。
一种面向 AI 时代的评估形式,尽量保持测评的有效性。
用 LLM 读课程材料评估能力覆盖,并提供基准与提示策略对照。
物理作业辅导系统:强调分步反馈/支架,而非直接给完整答案。
用“LLM 学生模拟”估计题目难度:适用于数据不足场景,但需要校准。
整理用户识别/反馈“迎合型”行为的可观测信号,可用于信任与安全评估。

