PaddleOCR:82k+ Stars的国产OCR天花板,0.9B小模型精度反超GPT-5.5
PaddleOCR:82k+ Stars的国产OCR天花板,0.9B小模型精度反超GPT-5.5大模型再强,也读不懂你公司那一柜子的合同、发票和扫描件。在"纸张世界"和"LLM世界"之间,缺一座桥——而百度开源的 PaddleOCR,可能就是当下最稳的那座。
搜索
大模型再强,也读不懂你公司那一柜子的合同、发票和扫描件。在"纸张世界"和"LLM世界"之间,缺一座桥——而百度开源的 PaddleOCR,可能就是当下最稳的那座。
他们对触乐说,变化发生在今年春节后。数字天空《烽沙》项目组目前有25人。今年1月,他们一共调用了2亿Token,到了2月,调用的Token数变成了149亿,“暴涨70倍”。“AI已经完全成为我们日常开发流程的一部分,虽然核心设计方向仍然需要把关,但已经很难再回到纯手工模式,”《烽沙》制作人Niko半开玩笑地告诉我:“如果今天用不了AI,我们都不会编程了,手动敲(代码)太慢了。”
曲凯:梦琪创业这一年,其实走完了很多 AI 软件创业者这几年的典型流程:字节背景,一个梦幻团队,讲一个当下 AI 里很流行的故事,融几轮钱,然后随着技术和热点变化 pivot。当然,也和大家一样遇到了今天这个软件行业的低点。
最近追《歌手》的同事说,胡彦斌已经跟咱是「同行」了——除了编歌,就是天天在办公室玩 Vibe Coding。
有两个站在硅谷最深处的AI天才,乔治·霍兹(George Francis Hotz)和卡帕西(Andrej Karpathy),为了AI编程这件事吵起来了,而他们背后,正是硅谷乃至美国AI市场的撕裂。
一开始,忽悠 AI 挺简单。
机器学习已经习惯了处理序列:一句话中的词、视频中的帧、推荐系统中的点击、金融市场中的订单。但在很多真实场景里,数据并不是按固定步长排好队出现的。
这是个一个月前的旧消息, 4月28日,达摩院联合广东省人民医院, 发布了一个叫DAMO COCA的, 肠癌筛查AI模型。
2026 年,会不会用 AI 不再看 Prompt(提示词)能力了,而是要看会不会设计循环。
当大模型开始控制机械臂、家用机器人时,“安全”这件事也变得不一样了。
刚刚爆出,马斯克的SpaceX宣布以600亿美元收购Cursor母公司Anysphere,全股票交易,Cursor将成为SpaceX的全资子公司。SpaceX 和 Curosr创始人Truell同一时间在X上官宣。
前两天有朋友问我:你的 Agent 现在能干嘛? 我说我的 Agent 会自己赚钱了🐶。 他说,你就吹牛吧。 我把电脑屏幕转过去给他看。上面是我的开源产品 Wesight 推过来的实时进度,我的 Agent 正在 ClawHunt 上竞标,刚刚又中了一单😄。
这绝对是近期把“反向创新”和“互联网幽默”玩到极致的一个案例,当整个 AI 行业都在比拼模型参数、Agent 框架、推理能力和算力规模时,一个 17 岁印度高中生却用一种近乎恶作剧的方式,创造了 2026 年最幽默的一个产品。
昨晚,字节新模型Seedance 2.0 Mini深夜来袭,该模型主打性价比,侧重于提供更低的价格以及更快的生成速度。Seedance 2.0 Mini虽然定价更低,但保留了核心能力参考生成,用户可以通过融合提示词与最多12个多种模态的参考素材(包括6张图片、3段音频、3段视频)来锁定人物一致性、精细化控制运动轨迹、卡准剧情节奏。
AI 正在学着操作电脑。由清华大学计算机系博士团队创立的非十科技,最近发布了一款桌面 Agent 产品 ———Agivar。与多数产品试图优化 Prompt 不同,它选择从另一个方向切入:让 AI 主动学习用户的工作流程。
AI公司还在拼模型,另一门更底层的生意正在变大。
Claude Fable 5被禁后续。
刚刚,据外媒The Information援引两名知情人士报道,DeepSeek近期已完成成立以来的首轮外部融资,募资总额超500亿元人民币(折合74亿美元),本轮融资采用特殊交易架构。这是中国AI行业迄今规模最大的单轮融资。
从「十几个后台」到「一个大脑」,电商 AI 迎来「All in One」时刻。
大家好,我是袋鼠帝 前两天一个朋友问我,怎么边工作,边把自媒体持续做下去,还能做得好。
最近的 Anthropic 真是风波不断。
当智能逼近临界点。
AlphaGo是最早的AI agent例子之一。我们需要把这种AlphaGo技术更广泛地用于行政工作、头脑风暴和日常事务,帮助人们处理那些不想花时间完成的任务,从而释放出更多时间,投入更具创造性的工作。
你有没有想过,销售这件事可能会被彻底重新定义?不是那种换个 CRM 系统或者学几个销售话术的小改进,而是从根本上改变销售人员的日常工作方式。
首个完成全端 AI 化的超级应用?
Agent + 无限画布带来的想象力。
Cursor曾养活Anthropic半条命,如今被Claude Code逼到梭哈马斯克。
在一个什么都能吵翻天的国家,71%的美国人难得达成共识:AI必须有人管——但管它的,绝不能是造它的人。
导读:视觉 latent reasoning 希望让多模态模型在内部生成连续 latent token,用这些中间表示补充多模态理解和推理任务中缺失的视觉证据。但问题在于,模型生成出来的 latent token 可能并不落在它原本熟悉的视觉输入空间里;如果模型无法稳定读取这些 token,它们就很难成为有效的中间视觉证据。
在印度,消费者每天会接到大量电话,从骚扰电话、诈骗电话,到送货员和金融服务公司的联系,种类繁多。虽然有 Truecaller 等应用以及政府的来电姓名显示(CNAP)系统可以识别来电者身份,但仅知道对方姓名往往不够。因此,Equal AI 正在开发一款助手,能够代你接听电话、收集信息,并告知你对方来电的原因。