首页 > 科技 > 2个月挑战完善AlphaFold2短板!AI夏令营毕业生让李开复点赞

2个月挑战完善AlphaFold2短板!AI夏令营毕业生让李开复点赞

衡宇 发自 凹非寺

量子位 | 公众号 QbitAI

AlphaFold 2,预测蛋白质结构的扛把子,预测了几乎所有已知蛋白质,涵盖100万物种2.14亿结构。

但实验测得的结构不足20万,预测的结构是否完全正确,无人知晓。

3位博士生加1位本科生,用了多久的时间证实AlphaFold 2预测的结构并不都完美这一棘手难题?

答案是2个月。

利用“AI大模型+质谱(MS)”,4名同学首次提出并训练了谱图的AI语言大模型,并实现交联谱图分类模型,构建实验支撑的组学规模的空间距离信息数据库,验证预测的结构,指导结构建模。

问英雄出处?——DeeCamp 2022,聚焦“AI+生命科学”的AI训练营。

2个月里,训练营里搞事情的不只上述一支队伍。

比如研究研究蛋白质相分离能力预测工具,蛋白结构预测酶活性、提出能取得更先进效果的AI蛋白质设计新方法……不仅玩法颇多,应用场景和商业价值也安排得妥妥的。

回顾过去几届DeeCamp,已有诸多围绕“AI+遗传中心法则”的项目被孵化,比如AI+基因编辑、AI+蛋白、AI+RNA等。

对奖项点评时,大赛评委、清华大学智能产业研究院院长张亚勤发言:

生命科学领域步入数字化3.0时代,DeeCamp2022聚焦AI+生命科学,不仅代表了当下整个科学界的研究趋势,也代表了中国的科技和产业发展趋势。

今年,DeeCamp为AI for Science注入了哪些新生代力量?

有望完善AlphaFold 2短板

冠军团队ProteinMiner的项目是大规模蛋白质组学信息发现

具体来说,就是利用AI+质谱技术,首次提出并训练了谱图的AI语言大模型,一方面,让质谱从头测序的精度大幅提升;另一方面,实现了交联谱图分类模型,有望使得交联谱图鉴定加速10倍。

为什么选择它作为赛题?

对疾病研究、药物研发来说,蛋白质的序列结构信息尤为重要。

首先提到的质谱测序技术,在蛋白质测序领域地位显著。

它有两种方法,一是依赖数据库“搜库”,二是没有数据库从头测序。因一些未知的蛋白,根本没有对应序列数据库,深度学习技术在从头测序领域有非常大的用武之地。这也是ProteinMiner的着力点之一。

行业对测序精度的追求永无止境。

尤其面对大规模的未知序列蛋白,现有的质谱从头测序技术,仍面临精度低的问题。

为了提升大规模发现未知蛋白序列与结构信息的能力,ProteinMiner项目的立足点,就是AI与大数据驱动的蛋白质质谱测序技术。

基于此,ProteinMiner首次提出预训练的AI谱图语言大模型

团队解释道,谱图是肽序列生成的,从谱图解析肽,如同把一种语言翻译成另一种语言,即将谱图翻译成肽序列。

大模型加持,能够提升质谱从头测序的精度,加速免疫相关的新抗原/抗体的发现,以推动个性化免疫治疗的进程。

另一方面,蛋白质结构在药物设计等过程中也有重要作用。

计算生物界的大明星AlphaFold 2虽已开源,但它一来无法准确预测蛋白复合物,二来柔性区域性能差,再者,最终得到的结果仅是“预测”的结构。

针对最后这一点,交联质谱技术可以通过高通量的实验方法,获取氨基酸之间的空间距离约束,有望为AlphaFold 2提供先验的距离约束,进而改进预测的结构,有助完善其不足之处。

然而放眼行业现状,交联质谱鉴定是N²的搜索空间,大库下鉴定速度慢,Xi软件直接搜human数据库一套数据的鉴定可能需要数月的时间。

为此,ProteinMiner考虑到交联谱图占比低,提出谱图的预分类策略,训练交联谱图的分类深度模型,实现快速的交联质谱数据鉴定,构建实验数据支撑的组学规模的蛋白质空间距离信息数据库。

综上所述,团队极大地改善了利用质谱技术大规模蛋白质组学信息发现的两个痛点:质谱从头测序精度低,交联谱图鉴定速度慢。

经过专家评委打分、讨论,最终,ProteinMiner获得DeeCamp 2022总冠军。

在ProteinMiner组员看来,训练营提供了一个平台,还提供了项目大模型训练所需的高性能资源,助力团队的想法实践和学术突破。

总冠军队:两名成员二次参赛,团队有本科生

ProteinMiner成员4人,分别是中科院计算所计算蛋白质组学/信息检索方向的博士生毛鹏志,成员包括香港中文大学(深圳)计算机视觉硕博生叶崇杰、中科院计算所生物信息学博士生齐晓宁、香港中文大学(深圳)数据科学与大数据技术专业本科生薛浩楠

细细说来,团队组成非常有趣:

队长毛鹏志及队员叶崇杰,今年已是两次参加DeeCamp。

2019年DeeCamp训练营就在国科大校园里,那时疫情前还可以线下,毛鹏志从周围参加的同学嘴里初次了解到这个比赛,用他的话来说,“(DeeCamp在周围参与了的朋友间)口碑非常不错,含金量被大家认可”。

叶崇杰虽不是生物信息背景,对基于transformer的大模型训练有强烈的兴趣。他和毛鹏志去年也曾在一个团队并肩奋斗,鉴于上一届默契的配合选择再次参赛。叶崇杰说:“第二次参加DeeCamp,是出于对DeeCamp和组委会的信任,也是由于对伙伴的信赖。我和鹏志有共同的愿景,我也相信他的能力和责任心,能够带领我们取得成功。”

在这次比赛中,他们一起合作, 设计并训练了一个AI谱图语言大模型Spectrum-MAE. 通过大量的工程和模型优化, 实现在单块显卡上将深度学习模型参数量增加到基线的20倍以上

另一名队员齐晓宁,是计算出身,研究生阶段踏入生物信息交叉领域。多组学大数据时代,希望通过人工智能来帮助探索生命科学领域。

由于当下AI与其他学科花式结合,像齐晓宁这样,被催生出的新交叉领域研究者还有很多。

总冠军队还有一名队员——薛浩楠——同时获得了DeeCamp 2022最具探索精神奖,因为他还是一名大二升大三的本科生

为将前沿技术(如ZeRo等)更好地运用到项目中,薛浩楠和队友们需深刻理解新技术,还需深度打磨,将其落地为所需要的课题实践。

虽有接触行业一线的欣喜,但也面临技术能力挑战,本科生身份的薛浩楠自述难度很大。和薛浩楠同为本科生的,本届DeeCamp还有另外4位。

二次参赛+交叉领域者+实力萌新,可堪视为DeeCamp 2022部分成员背景缩影。

至于拿下总冠军,10万元大赛奖金该怎么花?团队已经不谋而合:

拿来租服务器,把参赛项目糅合的部分拆解、完善,推动它继续发展。

DeeCamp 2022

除总冠军队外,另外5支参与总决赛答辩的队伍均获得了优胜奖。

另有4支参赛队伍,虽未挺进总决赛,但在创新、技术、产业价值、社会价值4个方面分获专项冠军。

DeeCamp,由创新工场发起的AI训练营,同时也是面向全球大学生,专注培养应用型AI人才的公益项目。

2017年首次发起,举办至今,DeeCamp已累计收到2万余名在校大学生报名,录取并培养了1500余名学员,是目前规模最大、周期最长、最具特色的AI公益训练营。

今年,训练营由创新工场和清华大学智能产业研究院(AIR)携手举办。

围绕主题“用AI探索生命科学新边界”,来自10多个国家和地区的150多名成员,组成30支队伍,参与了DeeCamp 2022。

相比之前赛道分散,本届DeeCamp首次聚焦“AI+生命科学”赛道,通过17个赛题,号召大学生们用AI技术探索生命科学的新边界。

大赛评委、创新工场董事长+CEO李开复表示:

“AI+科学交叉”是创新工场预测未来5到10年间会引爆的创新增长新范式,“AI+生命科学”更是造福人类、影响深远的黄金赛道,这也是6年来一贯倡导“学以致用”的DeeCamp首次聚焦AI+生命科学这一命题的深意所在。

总决赛答辩后,他还表示,期待在不久的将来,看到参赛同学成为中国“AI+生命科学”赛道的创新先锋。

DeeCamp:

https://deecamp.chuangxin.com/

本文来自网络,不代表趣头条立场,转载请注明出处:https://www.ngnnn.com/article/4_138342.html
上一篇台积电股东数本周减少3.24万人,连续两周下滑
下一篇想超越苹果,越来越难了

为您推荐

盖茨盛赞ChatGPT:人工智能历史意义不亚于“PC或互联网诞生”

盖茨盛赞ChatGPT:人工智能历史意义不亚于“PC或互联网诞生”

腾讯科技讯 2月3日消息,微软联合创始人比尔·盖茨表示,像ChatGPT这样的AI聊天机器人将变得与个人电脑或互联网同样重要。盖茨今日接受采访时表示:“AI将成为2023年最热门的话题。这是不可避免的。”他随后补充道:“ChatGPT将变得与个人电脑、互联网同样重要。”盖茨在20世纪80年代帮助开创了个人电脑时代。在微软和苹果等
专访墨奇科技CEO邰骋:人工智能需要新的AI数据基础设施

专访墨奇科技CEO邰骋:人工智能需要新的AI数据基础设施

“人工智能要发展到下一代,必然需要基础理论和基础设施的革新,特别是需要新的 AI 数据基础设施。”9月2日,新京报贝壳财经记者获悉,在近日举办的HICOOL2022全球创业者峰会上,AI(人工智能)基础技术和平台墨奇科技的项目团队获得“HICOOL 2022 全球创业大赛一等奖”。墨奇科技联合创始人、CEO 邰骋接受了新京报贝壳财
人工智能大会将举办智慧体育高峰论坛,发布AI+体育蓝皮书

人工智能大会将举办智慧体育高峰论坛,发布AI+体育蓝皮书

2022年世界人工智能大会智慧体育高峰论坛将于9月2日开幕。  主办方供图AI+体育,将成为世界人工智能大会的全新命题和新亮点。2022年世界人工智能大会智慧体育高峰论坛将于9月2日开幕。论坛上将发布由上海人工智能研究院牵头,联合上海交通大学、上海体育学院、首都体育学院、同济大学等单位编制的国内首本《“AI+体育”蓝
大脑还有多少秘密?世界人工智能大会首开脑机接口主题论坛

大脑还有多少秘密?世界人工智能大会首开脑机接口主题论坛

在2022世界人工智能大会上,天桥脑科学研究院(简称TCCI)转化中心联合中国科学院上海微系统与信息技术研究所、脑虎科技、中国神经科学学会、上海市神经科学学会共同举办“脑·机智能融合-让大脑连接未来”论坛,这也是脑机接口首次以主题论坛的形式登陆世界人工智能大会。英国皇家工程院院士、上海交大医疗机器人研究院院
我国人工智能学科主要奠基人涂序彦逝世,享年 88 岁

我国人工智能学科主要奠基人涂序彦逝世,享年 88 岁

IT之家 3 月 28 日消息,据北京科技大学消息,我国人工智能领域著名科学家、人工智能学科的主要奠基人、中国人工智能学会的主要创始人之一、第二和第三届中国人工智能学会理事长、北京科技大学计算机与通信工程学院教授涂序彦先生,因病医治无效,于 2023 年 1 月 1 日 0 时 10 分在北京逝世,享年 88 岁。IT之家附讣告原文
梁建章:人工智能如何影响经济和各行各业

梁建章:人工智能如何影响经济和各行各业

近日人工智能再次成为了热门话题。很多人好奇的是,人工智能未来到底会如何影响经济、人口和创新?今天,我跟大家分享个人的一些看法——谈谈人工智能对于经济以及各行各业的影响。自从深度神经网络出现以来,人工智能的发展速度超乎想象。ChatGPT的出现是个奇迹,超出了几乎所有计算机科学家的预料。一个简单的神经网络模
AI炒股新纪元?头部量化私募幻方宣布全力探索人工智能应用

AI炒股新纪元?头部量化私募幻方宣布全力探索人工智能应用

头部量化私募幻方宣布成立新的独立的研究组织,探索AGI(即通用人工智能,Artificial General Intelligence)的本质。4月14日,幻方发布公告显示,幻方将集中资源和力量,全力投身到服务于全人类共同利益的人工智能之中,成立新的独立的研究组织,探索AGI的本质,“我们将充分而持续地投入,不做中庸的事,用最长期的眼光去
卷完模型卷芯片!为提升效率,微软准备推出专属人工智能芯片

卷完模型卷芯片!为提升效率,微软准备推出专属人工智能芯片

在早期成功押注ChatGPT的研发公司OpenAI之后,市场发现,微软在其武器库中还拥有另一个秘密武器:自研人工智能芯片,这一芯片将为生成式AI背后的大型语言模型提供强大动力。4月18日周二,据媒体援引两位知情人士的话说,微软早在2019年就开始开发内部代号为Athena的AI芯片。其中一位知情人士称,一些微软和OpenAI的员工已经
真正的应用级量子人工智能距离我们还有多远?

真正的应用级量子人工智能距离我们还有多远?

·“量子科技是强国竞争的战略制高点,但不能一哄而上,低水平重复内卷,或片面追求发论文、抢专利,各自为战,闭门造车,而缺少真正的技术投入和系统配合。”·“当下量子系统的规模非常重要,而这很大程度上取决于芯片。”当前,发展量子计算和人工智能已成为世界各国的重要战略,两者交汇而生的量子人工智能更是发展迅速
返回顶部