从需求分析到代码生成,LLM都能干点啥?一文读懂291个软工Benchmark!
从需求分析到代码生成,LLM都能干点啥?一文读懂291个软工Benchmark!大语言模型正加速重塑软件工程领域的各个环节,从需求分析到代码生成,再到自动化测试,几乎无所不能,但衡量这些模型到底「好不好用」、「好在哪里」、「还有哪些短板」,一直缺乏系统、权威的评估工具。
大语言模型正加速重塑软件工程领域的各个环节,从需求分析到代码生成,再到自动化测试,几乎无所不能,但衡量这些模型到底「好不好用」、「好在哪里」、「还有哪些短板」,一直缺乏系统、权威的评估工具。
最近来自微软的研究者们带来了一个全新的思路,他们开源发布了POML(Prompt Orchestration Markup Language),它的的解决方案它的核心思想非常直接:为什么我们不能像开发网页一样,用工程化的思维来构建和管理我们的Prompt呢?这个编排语言很类似IBM的PDL
当大语言模型(LLM)走向千行百业,推理效率与显存成本的矛盾日益尖锐。
Macaron(马卡龙)AI 最近挺火的。 8 月 15 日,他们以「世界上第一个 Personal Agent」的称号公开上线了,给扎克伯格想做的 Personal SuperIntelligence 打了个样。
近日,随着新一代大语言模型(LLM)的一波更新,开源大模型再次成为了热门讨论话题。软件工程师、自媒体 Rohan Paul 发现了一个惊人的现象:Design Arena 排行榜上排名前十几位开源 AI 模型全部来自中国。
智东西8月25日消息,今日,前特斯拉AI总监、OpenAI联合创始人安德烈·卡帕西(Andrej Karpathy)放出了AI辅助编程的私藏独家秘籍。
刚刚,大神Karpathy发布全新Vibe Coding指南!
Pintarnya 是一家印度尼西亚就业平台,不仅提供职位匹配服务,还涵盖金融服务以及全职与零工机会。该公司宣布已完成 1670 万美元的 A 轮融资。
氛围编程(vibe coding),这个由 Andrej Karpathy 带火的热词,已经成为了一种相当流行的编程方式。但这种编程方式的流行程度究竟如何,目前还没有什么比较可靠的统计数据。
论搞事情,还得是你马斯克。 这不,为了硬刚微软,老马直接成立了一家新公司——巨硬(Macrohard)。