머신러닝으로 '유전자 분석' 빨라졌다

KAIST 한동수 교수, 유전체 정렬 SW 개발
기존 인덱싱기법보다 3.4배 빨라져
응급환자 빨리 분석해 치료에 도움

DNA. 게티이미지 제공

[파이낸셜뉴스] 한국과학기술원(KAIST) 전기및전자공학부 한동수 교수팀이 유전자 분석 속도를 높이는 소프트웨어(SW)를 개발했다. 이 SW는 머신러닝 기반의 인덱싱 기법을 활용해 기존에 사용하던 프로그램보다 3.4배나 더 빨리 유전자의 염기서열을 분석할 수 있다.

한동수 교수는 12일 "최근에는 병원에서 암환자의 유전체를 보고 어떤 약물을 투여할지 결정하게 되는데, 이 SW를 활용하면 응급환자의 유전체를 빨리 분석해 처방을 할 수 있다"고 말했다. 또한 "다양한 유전체를 분석하는 시간이 빨라지면 그만큼 클라우드 컴퓨터 사용 시간이 단축돼 비용을 절감할 수 있다"고 설명했다.

유전체 정보를 해독하는 차세대 염기서열 분석은 유전체를 무수히 많은 조각으로 잘라낸 뒤 각 조각을 표준유전체에 기반해 조립하는 과정을 거친다.

조립된 유전체 정보는 암을 포함한 여러 질병의 예측과 맞춤형 치료, 백신 개발 등 다양한 분야에서 사용된다.

유전체 정렬 SW는 염기서열 분석법으로 만든 유전체 조각 데이터를 온전한 유전체 정보로 조립하기 위해 사용하는 SW다. 이 작업에는 많은 계산을 필요로 해 시간이 오래 걸린다.

지금까지 유전체 분석에는 하버드 브로드 연구소에서 개발한 유전체 분석 도구 키트(GATK)를 이용한 데이터 처리 방법을 표준으로 사용한다. 이들 키트 중 BWA-MEM은 GATK에서 표준으로 채택한 유전체 정렬 SW다. 2019년에는 하버드 대학과 인텔이 협업해 BWA-MEM2가 개발됐다.

연구진이 개발한 SW는 연산량을 대폭 줄이면서도 표준 유전체 정렬 SW 'BWA-MEM2'와 같은 결과를 만들어 정확도를 유지했다. 사용한 머신러닝 기반의 인덱싱 기법은 주어진 데이터의 분포를 머신러닝 모델이 학습해, 데이터 분포에 최적화된 인덱싱을 찾는 방법론이다. 데이터에 적합하다고 생각되는 인덱싱 방법을 사람이 정하던 기존의 방법과 대비된다.

BWA-MEM2에서 사용하는 인덱싱 기법은 유전자 조각의 위치를 찾기 위해 유전자 조각 길이만큼의 계산이 필요하다. 하지만, 머신러닝 기반의 인덱싱 기법을 활용한 연구진의 알고리즘은 유전자 조각 길이와 상관없이 적은 연산량으로도 유전자 조각의 위치를 찾을 수 있다.

이 인덱싱 기법은 기존 인덱싱 기법과 비교해 3.4배 정도 빨라졌으며, 이로 인해 유전체 정렬 SW는 1.4 배 더 빨라졌다.

연구진은 이번에 개발한 유전체 정렬 SW를 오픈소스로 공개해 많은 분야에서 사용될 것으로 기대하고 있다.

또 한동수 교수는 "유전체 분석에서 사용되는 다양한 SW를 머신러닝 기술로 가속화하는 연구들의 초석이 될 것"이라고 말했다.

monarch@fnnews.com 김만기 기자