면역 체계에 의해 생성되는 작은 단백질인 항체는 바이러스를 무력화시키기 위해 바이러스의 특정 부분에 부착할 수 있다.
과학자들이 코로나19(COVID-19)를 유발하는 바이러스인 SARS-CoV-2와 계속 싸우면서 한 가지 가능한 무기는 바이러스의 스파이크 단백질과 결합하여 바이러스가 인간 세포에 들어가는 것을 방지하는 합성 항체를 꼽고 있다.
성공적인 합성 항체를 개발하기 위해 연구자들은 그 부착이 어떻게 일어나는지 정확히 이해해야 된다. 많은 주름을 포함하는 울퉁불퉁한 3D 구조를 가진 단백질은 수백만 가지 조합으로 서로 달라붙을 수 있으므로 수많은 후보 중에서 맞는 단백질 복합체를 찾는 것은 매우 시간이 많이 걸린다.
이 프로세스를 간소화하기 위해 MIT 컴퓨터과학 및 인공지능연구소(CSAIL)연구팀은 두 단백질이 함께 결합할 때 형성될 복합체를 직접 예측할 수 있는 인공지능(AI) 머신러닝 모델을 구현했다. 기술은 기존의 최첨단 소프트웨어 방법보다 80~500배 빠르며 종종 실험적으로 관찰된 실제 구조에 더 가까운 단백질 구조를 예측한다.
이 AI 기술은 과학자들이 DNA 복제 및 복구와 같은 단백질 상호 작용을 포함하는 일부 생물학적 과정을 더 잘 이해하는 데 도움이 될 수 있다. 또한 신약 개발 과정을 가속화할 수 있다.
연구팀이 개발한 에퀴독(Equidock)이라는 모델은 두 개의 단백질이 3D 공간에서 회전하거나 이동하여 자신의 구조를 흩트리지 않고 부착되지만 모양이 압착되거나 구부러지지 않을 때 발생하는 강체 도킹(Rigid Body Docking)에 중점을 둔다.
이 모델은 두 단백질의 3D 구조를 가져와서 이러한 구조를 신경망에서 처리할 수 있는 3D 그래프로 변환되고 단백질은 아미노산 사슬로 구성되며, 각 아미노산은 그래프에서 노드로 표시된다.
기하학적 지식을 모델에 통합하여 개체가 3D 공간에서 회전하거나 변환될 경우 개체가 어떻게 변경될 수 있는지 이해한다. 또한 이 모델에는 3D 공간에 존재하는 위치에 관계없이 단백질이 항상 같은 방식으로 부착되도록 하는 수학적 지식이 내장되어 있다.
이 정보를 사용하여 머신러닝 시스템은 상호 작용하고 화학 반응을 형성할 가능성이 가장 높은(Binding-Pocket Points) 두 단백질의 원자를 식별한다. 그런 다음 이 지점을 사용하여 두 단백질을 하나의 복합체로 함께 배치하는 것이다.
특히, 이 모델을 구축하는 가장 큰 과제 중 하나는 학습 데이터의 부족을 극복하는 것이었다. 단백질에 대한 실험 3D 데이터가 거의 없기 때문에 기하학적 지식을 에퀴독에 통합하는 것이 특히 중요했다. 이러한 기하학적 제약 조건이 없으면 모델은 데이터 세트에서 잘못된 상관관계를 선택할 수 있다.
연구팀은 모델이 훈련되면 이를 4가지 소프트웨어 방법과 비교했다. 에퀴독은 단 1~5초 후에 최종 단백질 복합체를 예측할 수 있었다. 예측된 단백질 복합체가 실제 단백질 복합체와 얼마나 근접하게 일치하는지 계산하는 품질 측정에서 모델은 종종 기준선과 비슷했지만 때로는 성능이 저조했다.
이 문제에 대해 연구팀은 "우리는 여전히 기준선 중 하나에 뒤쳐져 있습니다. 우리의 방법은 여전히 개선될 수 있으며 여전히 유용할 수 있습니다"라며, "여전히, 수천 개의 단백질이 상호 작용하고 복합체를 형성할 수 있는 방법을 이해하려는 초대형 가상 스크리닝에 이상적으로 사용할 수 있는 것입니다"라고 설명했다.
이어 "우리의 방법은 초기 후보 세트를 매우 빠르게 생성하는 데 사용할 수 있으며 더 정확하지만 느리고 전통적인 방법으로 미세 조정할 수 있습니다"라고 덧붙였다.
이 방법을 기존 모델과 함께 사용하는 것 외에도 연구팀은 특정 원자 상호 작용을 에퀴독에 통합하여 더 정확한 예측을 할 수 있기를 기대한다. 예를 들어, 때때로 단백질의 원자는 물 분자를 포함하는 소수성 상호작용을 통해 부착된다.
그들의 기술은 약물과 같은 작은 분자의 개발에도 적용될 수 있으며, 이러한 분자는 특정 방식으로 단백질 표면과 결합하므로 이러한 부착이 어떻게 발생하는지 신속하게 결정하면 약물 개발 일정이 단축될 수 있는 것이다.
한편, 연구팀은 에퀴독을 강화하여 유연한 단백질 도킹을 예측할 수 있도록 할 계획이다. 가장 큰 장애물은 여전히 훈련용 데이터가 부족하기 때문에 모델을 개선하는 데 사용할 수 있는 합성 데이터를 생성하기 위해 노력하고 있다.
이 연구 결과는 오는 4월25일부터 29일까지 가상으로 개최되는 글로벌 최고 권위 머신러닝 학회 ‘ICLR(International Conference on Learning Representations, 표현 학습 국제 학회) 2022’에서 '엔드 투 엔드 강체 단백질 도킹을 위한 독립 SE(3)-등변 모델(Independent SE(3)-Equivariant Models for End-to-End Rigid Protein Docking-다운)'란 제목으로 발표된다.