LLM
Mozilla发布LocalScore:简化本地AI模型基准测试的新工具
Mozilla 最近通过其 Mozilla Builders 计划推出了一款名为 LocalScore 的工具,旨在为本地大型语言模型(LLM)提供便捷的基准测试。该工具兼容 Windows 和 Linux 系统,具有极大的潜力,成为了易于分发的 LLM 框架的重要组成部分。尽管 LocalScore 仍处于早期开发阶段,但其表现已相当不错。LocalScore 是基于上周发布的 Llamafil
semantic-kernel
Integrate cutting-edge LLM technology quickly and easily into your apps
北大团队首次系统性评估大语言模型心理特征,推动AI评估新标准
在人工智能迅猛发展的今天,大语言模型(LLM)展现出了超凡的能力,但如何科学评估它们的 “心智” 特征,比如价值观、性格和社交智能,依旧是一个亟待解决的难题。近期,北京大学的宋国杰教授团队发布了一篇全面的综述论文,系统梳理了大语言模型心理测量学的研究进展,为 AI 的评估提供了新视角。这篇论文名为《大语言模型心理测量学:评估、验证与增强的系统综述》,长达63页,引用了500篇相关文献。随着 LLM