欧洲杯体育导致模子在面对同样环境时难以分袂不同的谈话指示-2024欧洲杯官网- 欢迎您&

作家:Catherine Glossop, William Chen, Arjun Bhorkar, Dhruv Shah, Sergey Levine
单元:加利福尼亚大学伯克利分校,普林斯顿大学
论文标题:CAST: Counterfactual Labels Improve Instruction Following in Vision-Language-Action Models
论文邻接:https://arxiv.org/pdf/2508.13446v1
名目主页:https://cast-vla.github.io/
代码邻接:https://github.com/catglossop/CAST
作家:Catherine Glossop, William Chen, Arjun Bhorkar, Dhruv Shah, Sergey Levine
单元:加利福尼亚大学伯克利分校,普林斯顿大学
张开剩余92%论文标题:CAST: Counterfactual Labels Improve Instruction Following in Vision-Language-Action Models
论文邻接:https://arxiv.org/pdf/2508.13446v1
名目主页:https://cast-vla.github.io/
代码邻接:https://github.com/catglossop/CAST
提议CAST数据增强门径,通过行使视觉谈话模子(VLM)生成反事实的谈话和行为标签,以增多机器东谈主数据聚合谈话的各种性和粒度。
通过在现存数据集上应用CAST,显耀提升了VLA模子免除谈话指示的才略,使模子在导航任务中的见效力提升了27%。
开源磋商资源,公开了CAST增强代码、CounterfactualVLA计谋检会代码、CAST数据集以及检会好的查验点,以促进接洽的可重迭性。
提议CAST数据增强门径,通过行使视觉谈话模子(VLM)生成反事实的谈话和行为标签,以增多机器东谈主数据聚合谈话的各种性和粒度。
通过在现存数据集上应用CAST,显耀提升了VLA模子免除谈话指示的才略,使模子在导航任务中的见效力提升了27%。
开源磋商资源,公开了CAST增强代码、CounterfactualVLA计谋检会代码、CAST数据集以及检会好的查验点,以促进接洽的可重迭性。
VLA模子的挑战:尽管VLA模子在将当然谈话指示映射到机器东谈主行为方面观念出色,但在免除细粒度号令时仍靠近坚苦,主要原因是现存机器东谈主数据集穷乏语义各种性息兵话基础。
数据集的局限性:现存数据集在近似不雅察中穷乏细粒度的任务各种性,导致模子在面对同样环境时难以分袂不同的谈话指示。
惩处门径:论文提议行使VLM的先验学问,通过生成反事实标签来增强数据集,从而提升模子的谈话免除才略。
VLA模子的挑战:尽管VLA模子在将当然谈话指示映射到机器东谈主行为方面观念出色,但在免除细粒度号令时仍靠近坚苦,主要原因是现存机器东谈主数据集穷乏语义各种性息兵话基础。
数据集的局限性:现存数据集在近似不雅察中穷乏细粒度的任务各种性,导致模子在面对同样环境时难以分袂不同的谈话指示。
惩处门径:论文提议行使VLM的先验学问,通过生成反事实标签来增强数据集,从而提升模子的谈话免除才略。
野心学问与问题述说标的
检会一个粗略凭证图像不雅察限度自主移动机器东谈主免除复杂谈话指示的计谋。
即: ,其中 是时辰 的动作,是不雅察(举例机器东谈主录像头的图像),是谈话指示,举例“沿着白墙移动”。
检会一个粗略凭证图像不雅察限度自主移动机器东谈主免除复杂谈话指示的计谋。
即: ,其中 是时辰 的动作,是不雅察(举例机器东谈主录像头的图像),是谈话指示,举例“沿着白墙移动”。
计谋频频通过近似最大化数据集的对数似然来检会:
其中 是标志的数据集,下标 示意第 个轨迹,示意该轨迹中的时辰步。
计谋频频通过近似最大化数据集的对数似然来检会:
其中 是标志的数据集,下标 示意第 个轨迹,示意该轨迹中的时辰步。
如若数据聚合的谈话标签 对计谋模子揣度正确动作不是必要的,那么模子在测试时会忽略它,这种景色称为后验坍弛(posterior collapse)。
本文的标的是将一个未标志的数据集 调节为一个新的标志数据集 ,以便检会出一个灵验的指示免除计谋。
如若数据聚合的谈话标签 对计谋模子揣度正确动作不是必要的,那么模子在测试时会忽略它,这种景色称为后验坍弛(posterior collapse)。
本文的标的是将一个未标志的数据集 调节为一个新的标志数据集 ,以便检会出一个灵验的指示免除计谋。
为了使计谋粗略被谈话指示指点,幸免后验坍弛,只是在各种化环境和指示上检会计谋是不够的。还需要不同的指示导致不同的动作,即使不雅察成果同样。
CAST(Counterfactual Augmentation with Synthetic Trajectories)的标的是为 中的任何不雅察生成多个动作-谈话元组,使得计谋必须关爱谈话指示智力产生正确的动作。
行使一个肤浅的原子计谋(atomic policy),该计谋免除肤浅的原子谈话指示(如“左转”或“右转”),况且比通用指示免除计谋更容易检会,且在短时辰范围内可靠。
通过VLM生成与不雅察磋商的反事实高档指示,并将其与原子指示磋商联,然后使用原子计营生成相应的动作。
为了使计谋粗略被谈话指示指点,幸免后验坍弛,只是在各种化环境和指示上检会计谋是不够的。还需要不同的指示导致不同的动作,即使不雅察成果同样。
CAST(Counterfactual Augmentation with Synthetic Trajectories)的标的是为 中的任何不雅察生成多个动作-谈话元组,使得计谋必须关爱谈话指示智力产生正确的动作。
行使一个肤浅的原子计谋(atomic policy),该计谋免除肤浅的原子谈话指示(如“左转”或“右转”),况且比通用指示免除计谋更容易检会,且在短时辰范围内可靠。
通过VLM生成与不雅察磋商的反事实高档指示,并将其与原子指示磋商联,然后使用原子计营生成相应的动作。
通过最大化谈话和动作之间的条目互信息 来提升谈话免除才略。
通过增多不同原子标签 的实行次数,同期确保每个原子标签容易从完好意思谈话指示 中揣度,不错灵验地最大化 的下界。
CAST通过生成各种化的反事实谈话指示,对应于不同的原子指示,从而提升原子标签的熵,但给定完好意思指示时条目熵较低,从而鼓动谈话和动作之间的互信息增多,进而提升谈话免除才略。
通过最大化谈话和动作之间的条目互信息 来提升谈话免除才略。
通过增多不同原子标签 的实行次数,同期确保每个原子标签容易从完好意思谈话指示 中揣度,不错灵验地最大化 的下界。
CAST通过生成各种化的反事实谈话指示,对应于不同的原子指示,从而提升原子标签的熵,但给定完好意思指示时条目熵较低,从而鼓动谈话和动作之间的互信息增多,进而提升谈话免除才略。
赢得原子轨迹段息兵话标签:当先赢得一个包含原子标签的数据集 ,并赢得描绘机器东谈主履行实行轨迹的指示 。
生成反事实指示:在 的每个不雅察点,行使VLM生成与原始轨迹在语义和几何上不同的替代指示 。
生成反事实轨迹:关于每个反事实指示 偏激原子指示 ,使用原子计谋 采样动作标签 ,造成从原始轨迹分支拨来的反事实轨迹,并将其添加到标志检会聚合。
赢得原子轨迹段息兵话标签:当先赢得一个包含原子标签的数据集 ,并赢得描绘机器东谈主履行实行轨迹的指示 。
生成反事实指示:在 的每个不雅察点,行使VLM生成与原始轨迹在语义和几何上不同的替代指示 。
生成反事实轨迹:关于每个反事实指示 偏激原子指示 ,使用原子计谋 采样动作标签 ,造成从原始轨迹分支拨来的反事实轨迹,并将其添加到标志检会聚合。
CAST被实例化用于视觉导航中的当然谈话指示免除任务。
由于穷乏大规模着实寰球的视觉谈话导航数据集,论文联想了两个组件来终了CAST:1)原子计谋(atomic policy);2)过后重标志(hindsight relabeling)进程以赢得谈话标签。
CAST被实例化用于视觉导航中的当然谈话指示免除任务。
由于穷乏大规模着实寰球的视觉谈话导航数据集,论文联想了两个组件来终了CAST:1)原子计谋(atomic policy);2)过后重标志(hindsight relabeling)进程以赢得谈话标签。
原子标签生成:关于数据聚合的每个不雅察 ,运筹帷幄一个原子标签 ,属于合并 {右转、左转、向右调节、向左调节、前进、住手},创建中间数据集 。
原子计谋检会:使用 检会原子计谋 ,通过监督学习终了。原子计谋使用 EfficientNet-b2 ConvNet 编码不雅察,使用 T5 谈话镶嵌来处理号令 ,然后通过 Transformer 生成高下文向量,最终使用扩散模子揣度动作。
原子标签生成:关于数据聚合的每个不雅察 ,运筹帷幄一个原子标签 ,属于合并 {右转、左转、向右调节、向左调节、前进、住手},创建中间数据集 。
原子计谋检会:使用 检会原子计谋 ,通过监督学习终了。原子计谋使用 EfficientNet-b2 ConvNet 编码不雅察,使用 T5 谈话镶嵌来处理号令 ,然后通过 Transformer 生成高下文向量,最终使用扩散模子揣度动作。
运行谈话标签生成:从现存的视觉导航数据聚合,为每个机器东谈主轨迹生成多个可能的谈话指示 ,描绘通盘这个词轨迹。
VLM 重标志:使用 VLM(如 OpenAI 的 GPT-4)对轨迹的子采样不雅察序列进行辅导,描绘环境中的物体、结构偏激相对位置,并追想这些描绘以生成新的指示。
过滤和增强:通过第二次辅导 VLM,结合图像、之前生成的标签和轨迹上的原子标签序列,遴荐与原子标签序列一致的标签,过滤掉与轨迹不一致的指示,并查询 VLM 以赢得独特的标签。
运行谈话标签生成:从现存的视觉导航数据聚合,为每个机器东谈主轨迹生成多个可能的谈话指示 ,描绘通盘这个词轨迹。
VLM 重标志:使用 VLM(如 OpenAI 的 GPT-4)对轨迹的子采样不雅察序列进行辅导,描绘环境中的物体、结构偏激相对位置,并追想这些描绘以生成新的指示。
过滤和增强:通过第二次辅导 VLM,结合图像、之前生成的标签和轨迹上的原子标签序列,遴荐与原子标签序列一致的标签,过滤掉与轨迹不一致的指示,并查询 VLM 以赢得独特的标签。
数据集遴荐:在 GNM 数据集上运行 CAST,该数据集包含多种机器东谈主(如袖珍轮式机器东谈主、四足机器东谈主和近似 ATV 的机器东谈主)的室内和室外轨迹。
数据圭臬化和预处理:将动作空间圭臬化为笛卡尔坐标增量,揣度机器东谈主在 xy 坐标上的移动。
模子架构:使用 30 亿参数的 PaliGemma VLM 动作基础模子,包括 SentencePiece 谈话分词器、SigLIP 400M 视觉模子和 Gemma 2B 谈话模子,通盘组件在检会过程中保执未冻结。
检会过程:在 CAST 数据集上微调 PaliGemma VLM,检会一个高容量的谈话条目计谋,称为 CounterfactualVLA。
数据集遴荐:在 GNM 数据集上运行 CAST,该数据集包含多种机器东谈主(如袖珍轮式机器东谈主、四足机器东谈主和近似 ATV 的机器东谈主)的室内和室外轨迹。
数据圭臬化和预处理:将动作空间圭臬化为笛卡尔坐标增量,揣度机器东谈主在 xy 坐标上的移动。
模子架构:使用 30 亿参数的 PaliGemma VLM 动作基础模子,包括 SentencePiece 谈话分词器、SigLIP 400M 视觉模子和 Gemma 2B 谈话模子,通盘组件在检会过程中保执未冻结。
检会过程:在 CAST 数据集上微调 PaliGemma VLM,检会一个高容量的谈话条目计谋,称为 CounterfactualVLA。
评估 CAST 是否粗略使更灵验的谈话条目计谋用于导航。
比拟 CounterfactualVLA 与现存SOTA门径的性能。
细目哪种计谋架构最合适行使 CAST。
评估 CAST 是否粗略使更灵验的谈话条目计谋用于导航。
比拟 CounterfactualVLA 与现存SOTA门径的性能。
细目哪种计谋架构最合适行使 CAST。
任务类型:27 个挑战性的视觉谈话导航任务,分为三类:对象导航、参照导航和连气儿导航。
环境:3 个着实寰球环境,包括拥堵的办公室走廊、厨房和户外全球公园。
评推测划:见效力,即计谋见效完成任务的比例。
任务类型:27 个挑战性的视觉谈话导航任务,分为三类:对象导航、参照导航和连气儿导航。
环境:3 个着实寰球环境,包括拥堵的办公室走廊、厨房和户外全球公园。
评推测划:见效力,即计谋见效完成任务的比例。
与圭臬 VLA 比拟:CounterfactualVLA 的平均见效力为 53%,比圭臬 VLA 提升了 27%。圭臬 VLA 在需要避碰的任务中观念较好,但在对象导航任务中观念较差。
与现存门径比拟:CounterfactualVLA 在通盘任务类型中均优于现存的基线门径,总体性能提升了 19%。举例,CoNVOI 在对象和参照导航任务中观念稍好,但在连气儿导航任务中观念较差。
模子架构的影响:CounterfactualVLA 使用 VLA 配景架构,粗略更好地意会复杂的谈话指示,而 ResNet+FiLM 架构在处理复杂谈话指示时观念较差。
与圭臬 VLA 比拟:CounterfactualVLA 的平均见效力为 53%,比圭臬 VLA 提升了 27%。圭臬 VLA 在需要避碰的任务中观念较好,但在对象导航任务中观念较差。
与现存门径比拟:CounterfactualVLA 在通盘任务类型中均优于现存的基线门径,总体性能提升了 19%。举例,CoNVOI 在对象和参照导航任务中观念稍好,但在连气儿导航任务中观念较差。
模子架构的影响:CounterfactualVLA 使用 VLA 配景架构,粗略更好地意会复杂的谈话指示,而 ResNet+FiLM 架构在处理复杂谈话指示时观念较差。
实验论断
CAST 通过生成各种化的反事实标签,显耀提升了 VLA 模子在免除复杂谈话指示方面的才略。
CounterfactualVLA 在多个着实寰球环境中观念出色,优于现存的基线门径。
使用高容量的 VLM 基础模子关于意会和免除复杂的谈话指示至关进击。
CAST 通过生成各种化的反事实标签,显耀提升了 VLA 模子在免除复杂谈话指示方面的才略。
CounterfactualVLA 在多个着实寰球环境中观念出色,优于现存的基线门径。
使用高容量的 VLM 基础模子关于意会和免除复杂的谈话指示至关进击。
论断:
CAST通过生成各种化的反事实标签,显耀提升了VLA模子在免除复杂谈话指示方面的才略。CounterfactualVLA在多个着实寰球环境中观念出色,优于现存的基线门径。
改日责任:
推广到其他领域:探索将近似门径应用于机器东谈主操作等其他领域。
结合其他本领:将CAST与大规模模拟、生成性增强或跨机器东谈主数据聚合合,以进一步提升视觉各种性。
纠正VLM的标注质料:尽管VLM的标注速率较慢且质料杂沓不皆,但跟着本领的卓绝欧洲杯体育,改日VLM将更快、更经济且更好地与物理寰球结合,从而提升门径的实用性。
论断:
CAST通过生成各种化的反事实标签,显耀提升了VLA模子在免除复杂谈话指示方面的才略。CounterfactualVLA在多个着实寰球环境中观念出色,优于现存的基线门径。
CAST通过生成各种化的反事实标签,显耀提升了VLA模子在免除复杂谈话指示方面的才略。CounterfactualVLA在多个着实寰球环境中观念出色,优于现存的基线门径。
改日责任:
推广到其他领域:探索将近似门径应用于机器东谈主操作等其他领域。
结合其他本领:将CAST与大规模模拟、生成性增强或跨机器东谈主数据聚合合,以进一步提升视觉各种性。
纠正VLM的标注质料:尽管VLM的标注速率较慢且质料杂沓不皆,但跟着本领的卓绝,改日VLM将更快、更经济且更好地与物理寰球结合,从而提升门径的实用性。
推广到其他领域:探索将近似门径应用于机器东谈主操作等其他领域。
结合其他本领:将CAST与大规模模拟、生成性增强或跨机器东谈主数据聚合合,以进一步提升视觉各种性。
纠正VLM的标注质料:尽管VLM的标注速率较慢且质料杂沓不皆,但跟着本领的卓绝,改日VLM将更快、更经济且更好地与物理寰球结合,从而提升门径的实用性。
发布于:安徽省