职位:智能语音交互算法实习生

工作地点:北京
岗位描述:
1、多语种语音到语音翻译
技术目标:以人为中心,面向跨语种的实时语音通信,发展在电话信道下不同语种的实时互译技术。
业务目标:无语言障碍的跨国/跨地区语音通信。
2、多模态大模型下的语音理解与生成
技术目标:与GPT4o类似,实现多种模态的统一表征与合成,侧重于超自然的实时人机语音交互。
业务目标:多模态语音助手
3、声纹识别与安全
技术目标:利用海量说话人数据,发展声纹识别的大规模训练方法,研究模型受攻击时的鲁棒性。
业务目标:声纹在监控、电信反诈、银行、会议等的应用。
4、空间音合成
技术目标:以文本、图像、视频为输入,自动生成带有空间方位感音效的人声、音乐、自然声。
业务目标:虚拟立体视频
5、分布式多设备语音前端
技术目标:面向远场等复杂声学环境,发展随机分布的多设备自组织技术,实现多设备联合语音降噪、分离、定位等。
业务目标:智能会议、智慧家庭、监控等的分布式拾音前端。
成果体现:高水平论文、发明专利、演示系统、国际比赛获奖、 业务部署等

岗位要求:
1、本科在读及以上学历,电子工程、计算机科学与技术、自动化、人工智能、应用数学等相关专业优先;
2、对技术有极致的追求,愿意接受挑战,有强烈的好奇心与执行力;
3、具备自主探索、解决问题的能力,针对研究过程中遇到的实际问题能够自主寻找解决方案;
4、英语能力强,通过英语国家六级或具有同等以上能力,能够快速阅读文献,撰写论文;
5、代码能力强、有C++/Python编码经验同学优先;
6、了解深度学习、有实践经验的同学优先;
7、有学术会议/期刊论文发表经历者优先。

职位:多媒体认知学习算法研究实习生

工作地点:北京
岗位职责:
1、负责具身智能-智能向善(衣/食/住/行/用等AI Agent)、广域无人机智能综合管控(黑飞无人机监管&低空经济运维)、临地安防-无约束视觉目标感知理解与认知决策等相关方向的前沿探索与应用创新;
2、负责研究成果总结与输出,包括发表高水平国际期刊/会议论文、撰写专著、申请国家发明专利/软件著作权、参加国内外重要科技竞赛、组织国内外学术活动等;
3、配合和参与推动研究成果的原型开发和转化应用。

岗位要求:
1、硕士及以上学历,人工智能、计算机、数学、自动化等相关专业(特别优秀的本科生特殊考虑);
2、在国际顶级期刊/会议(包括但不限于T-PAMI、IJCV、T-IP、 NeurlPS、CVPR、ICCV等)上以第1作者发表过论文≥1篇者优先,在国内外重要科技竞赛中以第1作者取得前3名成绩者优先;
3、熟悉TensorFlow、Pytorch等主流深度学习框架至少1种,有良好的大模型、多模态学习、生成式人工智能、机器学习、模式识别、多媒体分析等专业领域的学科知识基础;
4、熟悉 C++或Python,具有较强的代码开发和实现能力,能熟练使用Linux;
5、具备良好的主观能动性,能主动思考、主动作为、主动反馈,每周出勤需保证≥3天,可连续实习≥6个月。

职位:多模态大模型实习生

工作地点:北京
岗位描述:
1、跟踪学术前沿,参与多模态大模型的设计、研发。
2、参与大模型的训练、微调以及部署工作。
3、研究大模型下游应用的研发、拓展与推广、推动大模型产业化进展。
4、向相关领域的高水平国际会议与期刊投稿发表前沿科研成果。

岗位职责:
1、硕士或者博士在读,计算机科学、人工智能、软件工程等相关专业。
2、熟悉机器学习、计算机视觉、自然语言处理等相关领域的基本理论和方法。熟练使用PyTorch、TensorFlow等深度学习框架中的一种。
3、具有良好的编程能力与编程习惯,熟练使用Python或C++等编程语言。熟悉服务器使用、深度学习环境搭建。
4、自我驱动力强、有强烈的探索意愿,较好的学习能力以及执行力。具有良好的沟通和团队合作能力。
5、有大模型训练、微调、数据集构建等项目经历和科研经历者优先。
6、有高水平学术论文发表经历者优先。