
唯快不破:上海AI Lab 82页综述带你感受LLM高效架构的魅力
唯快不破:上海AI Lab 82页综述带你感受LLM高效架构的魅力近年来,大语言模型(LLMs)展现出强大的语言理解与生成能力,推动了文本生成、代码生成、问答、翻译等任务的突破。代表性模型如 GPT、Claude、Gemini、DeepSeek、Qwen 等,已经深刻改变了人机交互方式。
近年来,大语言模型(LLMs)展现出强大的语言理解与生成能力,推动了文本生成、代码生成、问答、翻译等任务的突破。代表性模型如 GPT、Claude、Gemini、DeepSeek、Qwen 等,已经深刻改变了人机交互方式。
目前的 HOI 检测方法普遍依赖视觉语言模型(VLM),但受限于图像编码器的表现,难以有效捕捉细粒度的区域级交互信息。本文介绍了一种全新的开集人类-物体交互(HOI)检测方法——交互感知提示与概念校准(INP-CC)。
GUI 智能体正以前所未有的速度崛起,有望彻底改变人机交互的方式。然而,这一领域的进展正面临瓶颈:现有数据集大多聚焦于 10 步以内的短程交互,且仅验证最终结果,无法有效评估和训练智能体在真实世界中的长时程规划与执行能力。
人形机器人作为用于复杂运动控制、人机交互和通用物理智能的多功能平台,正受到前所未有的关注。然而,由于其复杂的动力学、欠驱动和多样化的任务需求,实现高效的人形机器人全身控制 (Whole-Body Control,WBC) 仍然是一项根本性的挑战。
这条人机交互的进化之路,出门问问从未真正放弃。今年,大模型基础能力再次实现飞跃,像 ChatGPT、DeepSeek、豆包这样的 AI 工具,正在成为越来越多职场人工作中的常用助手。
这场关乎“未来人机交互关系”的商业赛道,谁能吃到更大的红利。
「编程的未来是Human语言」,AI掀起编程70年来最大变革,从对话到代码,「氛围编程」与自然语言成为主角。老黄预言,AI让人人都能成为人机交互的桥梁。
科大讯飞又搞了个大动作,智能交互直接燃爆!AIUI全新升级,儿童专属交互方案,AI眼镜「三麦阵列」硬核出圈,还有机器人语音背包、移动数字人「小雨」实力抢镜。一场发布会,让我们看到下个时代人机交互的全貌。
哈工大论文斩获ACL评审阶段已知最高分!考虑到英文键盘难以适配汉字特点及文化内涵,团队通过传感器捕捉手部书写,实现汉字的自然输入与识别;独创的中文字形编码使AI能深入理解汉字形态而非仅关注词义,推动AI从「识字」迈向「解字」。该研究革新了中文人机交互,推动了汉字文化传播与传承,更为AI深度理解汉字智慧开辟了新道路。
近年来,图形用户界面(GUI)自动化技术正在逐步改变人机交互和办公自动化的生态。然而,以 Robotic Process Automation(RPA)为代表的传统自动化工具通常依赖固定脚本进行操作,存在界面变化敏感、维护成本高昂、用户体验欠佳等明显问题。