从需求分析到代码生成,LLM都能干点啥?一文读懂291个软工Benchmark!
从需求分析到代码生成,LLM都能干点啥?一文读懂291个软工Benchmark!大语言模型正加速重塑软件工程领域的各个环节,从需求分析到代码生成,再到自动化测试,几乎无所不能,但衡量这些模型到底「好不好用」、「好在哪里」、「还有哪些短板」,一直缺乏系统、权威的评估工具。
大语言模型正加速重塑软件工程领域的各个环节,从需求分析到代码生成,再到自动化测试,几乎无所不能,但衡量这些模型到底「好不好用」、「好在哪里」、「还有哪些短板」,一直缺乏系统、权威的评估工具。
你有没有想过,一家小企业想要贷款时,为什么总是被迫在两个极端选择之间挣扎?要么选择社区银行的低利率,但要忍受漫长的审批流程和落后的数字化体验;要么转向在线放贷平台的快速审批,却要承受高达60%的年化利率。这种看似无解的困境,正在被一家名为Casca的创业公司彻底颠覆。
8 月 25 日,钉钉十周年,8.0 版本发布。但是在发布会现场, CEO 无招却说: 钉钉 8.0 也是 AI 钉钉的 1.0,我们决心清空过去,以归零的心态,为 AI 时代打造一个全新的钉钉。
这份来自麻省理工的2025年商业AI现状的研究报告最近在网上炸锅了,该报告称 95% 的人工智能试点都失败了,这吓坏了美国股市的投资者。报告提到大多数公司都陷入了困境,因为 95% 的 GenAI 试点项目都没有产生任何投资回报率,而只有 5% 的公司通过使用可学习、可融入实际工作流程并随着使用而改进的系统获得了成功。
国务院发布《“人工智能+”行动意见》,是国家层面对AI战略的全面升级。政策提出“智能原生”新概念,设定2027/2030/2035年关键节点,强调技术普惠化与产业深度融合。重点布局科技、产业、消费、民生、治理、全球合作六大领域,并为普通人提供低门槛参与路径。
昨晚,神秘且强大的图像生成与编辑模型 nano banana 终于正式显露真身。没有意外,它果然来自谷歌,并且也获得了一个正式但无趣的名字:gemini-2.5-flash-image-preview。
今天,我们正式开源 8B 参数的面壁小钢炮 MiniCPM-V 4.5 多模态旗舰模型,成为行业首个具备“高刷”视频理解能力的多模态模型,看得准、看得快,看得长!高刷视频理解、长视频理解、OCR、文档解析能力同级 SOTA,且性能超过 Qwen2.5-VL 72B,堪称最强端侧多模态模型。
朋友,你相信光吗? 在你正式做出回答之前,AI玩具领域已经用行动告诉我们:有人依然相信。 全球首款迪迦奥特曼AI玩具正式发售,国产的。
Jet-Nemotron是英伟达最新推出的小模型系列(2B/4B),由全华人团队打造。其核心创新在于提出后神经架构搜索(PostNAS)与新型线性注意力模块JetBlock,实现了从预训练Transformer出发的高效架构优化。
百度最新视频生成模型蒸汽机2.0(MuseSteamer 2.0),好像真的有点东西。