以一篇水文告别不学无术的研究生生活
cyoahs

Deeper Mimic

工作一年之后,研究生时期的最后一篇论文正式见刊了,虽然文章写的投的都很仓促,但是喜提了一个浙大学报的封面。这差不多也是我主导和执笔的最后一篇论文了,结束了这一年断断续续的校对,不学无术的学术生涯到此为止。

cover

论文基于DeepMimic魔改了一个多种技能模仿学习,参考轨迹主要用的是MANN的mocap轨迹。后来为了写文章,硬掺了一些其他轨迹,以及很多YY为主的理论分析。

虽然论文是最后一篇论文,但这实际上是我19年底换方向到机器人之后的第一个课题。当时读了ETH的第一篇Science Robotics,虽然开源了代码但是reward实在太难设计,学出来的动作极为抽象。于是乎转身用Raisim写了一个DeepMimic,恰巧又看到MANN的论文,觉得生成的动作很好看。于是一拍即合,想着用MANN在线生成轨迹,再用mimic跟随。这样一揉觉得自己水平可比西方那个DeepMimic不知道要高到哪里去,于是课题代号Deeper Mimic。奈何当时客观水平有限,加上疫情的关系,进展很慢,20年回到学校之后,实物走的也很抽象,当时把所有问题都甩锅给MANN数据集有问题。20年上半年 Peng Xue Bin 也发了一篇模仿学习跟踪mocap轨迹的论文,看到之后更加打消了继续往下做的念头。

Phase-Guided Control

差不多20年底的一次大组会上从 Liu 同学那儿听到了 CPG 可以做步态切换,觉得似乎是个办法。会后加了微信要了一堆论文,从里面挑了一个最简单的Hopf Oscillator,差不多寒假前就快乐地做出了步态切换,于是就有了 Phase Guided Control。由于觉得这东西比较简单,刚提出来的时候代号是 Shallow Mimic。论文投稿时期做了一些扩展,加了一些身体高度、姿态角、抬脚高度做输入,算是古早的walk these ways。当时可能也是整个实验室第一次写机器人的论文,整个论文写和投稿都很墨迹,最后到ICRA的时候已经是2022年了。

Terrain Adaption

写上面论文的那个寒假正好在玩《底特律:变人》,男主可以离线轨迹优化+在线MPC跑酷,于是乎想在狗上复现一个青春版的跑酷,也就是步态切换走楼梯。然而由于对感知一无所知,甚至一度干出了用一根半米长的杆子挑着T265定位的抽象操作,两三个月跑通仿真能够飞天遁地之后,直到毕业都不能算在实物上迁移成功。

当时总觉得调一调就能走起来,但是花了快一年都没啥进展。这个研究唯一的收获就是仿楼梯的时候在github raisim仓库的discussion区认识了Willa同学,居然浙大还有别的人也在用raisim。

Deeper Mimic Again

到22年9月份的时候,组会报告完nerual scene reconstruction,老师终于想起了我的毕业时间应该是23年,决定松手让我整个短平快的工作。本来想做点MPC+RL结合,经历了一个月速成OCS2失败之后,决定还是重新捡起以前的研究。11月底的组会报告抢救计划,还记得那一天有小道消息YQ要被封校,开车跑路到学校外面的停车场在线参加的组会。

deepermimic_1

22年12月份,学校几乎进入了COVID大逃杀,苟进决赛圈的最后一周,一个人在两个实验室做实验的效率特别高,那一周跑通了几乎所有demo。次年2月,补充完基本是YY的分析之后,寒假后整理完所有写论文的图片和视频素材了。尽管实物走的非常烂,但是再优化就真的毕不了业了。

deepermimic_2

Diamond

最后留给写论文和投稿的时间也不多,论文也是在答辩前一天才极限接收的。于是乎我主导的第一个机器人课题也就成了我主导的最后一个机器人课题。在做机器人之前也做过AI4Science,也做过微纳米力学,这些研究经历唯一的功能就是日常和结构吹牛和吓人。

Leaving Academia

22年出来了很多新东西,有AMP,有legged_gym,OCS2开始大杀四方,当时傅里叶已经把最新的论文和工具用在了人形机器人上,而那年的我还守着越来越没人用的raisim和tensorflow,魔改cheetah-software。23年写毕业论文的时候发现第一篇论文的背景已经完全不适用了,当时更让我觉得自己的博士就是一个大号master,放在很多地方连大号都算不上,博士论文越改越emo。博士期间的成果论数量也不多,论深度也没有,客观上确实挺不学无术的。

毕业之后不需要创新的一年感受到了前所未有的快乐,甚至开始想写论文。