Please turn JavaScript on

微软亚洲研究院 Articles

Follow 微软亚洲研究院 Articles's news and updates in a matter of seconds! We will deliver any update via email, phone or you can read them from here on the site on your own news page.

You can even combine different feeds with the feed for 微软亚洲研究院 Articles.

Subscribing and unsubscribing is fast, easy and risk free.

The whole service is free of cost.

微软亚洲研究院 Articles: Your request has been blocked. This could be due to several reasons.

Is this your feed? Claim it!

Publisher:  Unclaimed!
Message frequency:  0.37 / day

Message History

When you see robots participating in running races or performing folk dances on stage, you might envision a future where a simple natural language command is all it takes for a robot to tidy up a desk, clean a room, or even serve tea.

For a robot to truly “understand human speech,” “perceive the world,” and translate that comprehension into precise movements, the ke...


Read full story

随着AI技术的快速发展,很多视频基础模型已经能够生成画面精美、风格多样的短片,但一个根本性问题始终未被解决:尽管模型擅长生成看起来逼真的画面,却并没有真正理解三维世界。当镜头旋转、推进或环绕时,这些模型生成的视频中的建筑会扭曲变形,物体会凭空消失,空间比例也常常前后矛盾。换句话说,这些模型学会了二维像素的统计规律,却尚未建立稳定的三维空间认知。

为了解决这一问题,微软亚洲研究院推出了一种通过强化学习(RL)将视频生成与 3D 几何约束对齐的全新框架 World-R1。与此前需要修改架构或引入 3D 模块的方法不同,World-R1 无需改动模型结构、不依赖 3D 数据集、也不会增加推理开销,即可显著提升视频的几何一致性。相关论文已被 ICML ...


Read full story

“医生,我这个片子到底有没有问题?”

这可能是在医院的诊室里经常听到的一句话。面对一张复杂的医学影像,医生不仅要给出“是与否”的答案,更需要向患者解释诊断的依据:这个阴影是什么?为什么怀疑是肿瘤?具体的医学证据在哪里?而在面对疑难杂症或复杂病症时,还需要多个科室的专家联合会诊,才能形成更严谨、准确的诊断结论。

近年来,具备图像理解能力的视觉语言模型(VLM)开始在医疗诊断方面展现潜力。但现有的AI模型多以“黑盒”方式运行,或只给出猜测性的推理,这会不可避免地遭受大模型幻觉的困扰,无法给出事实性依据,更不能像临床医生一样分析影像特征并给出诊断依据。这种“只给答案、不做举证”的模式,无法满足医疗场景对可信性与可解释性的要求,因此很难获得医生与患者的充分信任。此外,单一功能的视觉大模型也难以覆盖内科、外科、影像科...


Read full story

近年来,很多大模型都能从自然语言描述中稳定地写出单个函数或单个文件。但如何将这种能力延伸到“从高层规格生成完整仓库”,或者“对真实仓库形成持续可用的全局理解”,目前仍处于早期阶段。而这两个看似相互独立的方向,实则共享着同一个底层困局——缺少一种适合代码仓库的中间表示。

目前主流的AI智能体框架普遍依赖三类代偿性表示:

自然语言计划:如MetaGPT、ChatDev 等多智能体系统让不同角色通过自然语言进行协商。但自然语言的歧义性往往会导致长程规划在迭代中逐渐漂移。 依赖图:通过静态分析得到的引用与调用(import/ call)拓扑。这种方式虽然结构清晰,却缺少”为什么这些代码会组织在一起”的功能语义。 API 文档:语义丰富,但缺少全局拓扑结构,不足以驱动跨文件的...

Read full story

从文生图、文生视频,到文本生成音视频(Text-to-Audio-Video, T2AV),生成模型正在快速迈向更强的多模态表达能力。与此同时,一个关键问题也愈发突出:我们究竟该如何评测这些模型?

现有评测往往更关注单一模态的生成质量,难以同时衡量画面、声音、同步性、语义控制与复杂任务的执行能力。模型也许能生成“好看”的视频,却未必能做到音画一致;也许能生成“自然”的声音,却未必能准确遵循文本指令;也许能生成看似合理的物体交互,却并不符合物理规律。尤其在广告、新闻、电影预告片、乐器教学、物理实验等真实场景中,这种评测缺口更加明显。

为此,微软亚洲研究院推出了一个面向文本生成音视频任务的多粒度、细粒度、任务驱动评测基准AVGen-Bench。...


Read full story