
真实场景文档理解:字节发布的WildDoc基准数据集向OCR提出了什么挑战?
真实场景文档理解:字节发布的WildDoc基准数据集向OCR提出了什么挑战?最近,字节跳动团队联合华中科技大学发布的基准数据集 WildDoc 引起了对 OCR 能力的再衡量。
最近,字节跳动团队联合华中科技大学发布的基准数据集 WildDoc 引起了对 OCR 能力的再衡量。
如果去标记“得帆信息”——这家成立十年的软件公司历史,2025年春节,一定是个刻骨铭心的时间点。这本是个欢庆的时点,得帆信息的创始人&CEO张桐却忧心忡忡。他已经多年不写代码,却用美国AI Coding(AI编程)工具Cursor,花两天就写出一套网页版的CRM后,张桐得出结论:
王劲,香港大学计算机系二年级博士生,导师为罗平老师。研究兴趣包括多模态大模型训练与评测、伪造检测等,有多项工作发表于 ICML、CVPR、ICCV、ECCV 等国际学术会议。
近日, Mastra AI 创始人 Sam Bhagwat 在 X 上发布了一条推文,称其中提到大约 60~70% 的 YC X25 Agent 公司正在使用 TypeScript 构建他们的 AI Agent。
Decoder是由The Verge 主编 Nilay Patel 主持的深度访谈节目。在这一期中,Decoder邀请到了 Runway 联合创始人兼 CEO Cris Valenzuela,一位既是技术推动者,也是理想主义创作者的创业者
地产界,跑出一个Manus
Nature never undertakes any change unless her interests are served by an increase in entropy. 自然界的任何变化,唯有在熵增符合其利益时方会发生——Max Planck
数据公司收购热潮在周一持续升温,云数据平台Snowflake 宣布收购Postgres 数据库合作伙伴Crunchy Data。知情人士透露此次交易估值约为 2.5 亿美元。
刚刚,OpenAI 正式对外推出了 AI 编码神器 Codex,其目前向 ChatGPT Plus 用户开放。据悉,Codex 在限定时段内提供宽松的使用额度,但在需求高峰期间,可能会对 Plus 用户设置速率限制,以确保其能广泛可用。
在人工智能领域,跨模态生成(如文本到图像、图像到文本)一直是技术发展的前沿方向。现有方法如扩散模型(Diffusion Models)和流匹配(Flow Matching)虽取得了显著进展,但仍面临依赖噪声分布、复杂条件机制等挑战。