연합 학습을 통해 희귀암 경계 감지를 위한 빅데이터 지원
홈페이지홈페이지 > 블로그 > 연합 학습을 통해 희귀암 경계 감지를 위한 빅데이터 지원

연합 학습을 통해 희귀암 경계 감지를 위한 빅데이터 지원

Jan 31, 2024

Nature Communications 13권, 기사 번호: 7346(2022) 이 기사 인용

18,000회 액세스

16 인용

341 알트메트릭

측정항목 세부정보

이 기사에 대한 저자 수정 사항은 2023년 1월 26일에 게시되었습니다.

이 기사가 업데이트되었습니다.

기계 학습(ML)은 여러 분야에서 가능성을 보여주었지만 표본 외 일반화 가능성은 우려됩니다. 이는 현재 다중 사이트 데이터를 공유하여 해결되지만 이러한 중앙 집중화는 다양한 제한으로 인해 확장하기 어렵거나 불가능합니다. FL(Federated ML)은 수치 모델 업데이트만 공유하여 정확하고 일반화 가능한 ML을 위한 대체 패러다임을 제공합니다. 여기에서는 교모세포종이라는 희귀 질환에 대한 자동 종양 경계 검출기를 생성하기 위해 6개 대륙에 걸쳐 71개 사이트의 데이터를 포함하는 현재까지 가장 큰 FL 연구를 제시하며 문헌에서 가장 큰 데이터 세트(n = 6, 314)를 보고합니다. 우리는 공개적으로 훈련된 모델에 비해 외과적으로 표적화할 수 있는 종양에 대해 33%의 묘사 개선을 보여주고, 전체 종양 범위에 대해 23%의 개선을 보여줍니다. 우리는 우리의 연구가 다음과 같이 기대합니다: 1) 크고 다양한 데이터를 바탕으로 더 많은 의료 연구를 가능하게 하여 희귀 질환 및 제대로 표현되지 않은 인구에 대한 의미 있는 결과를 보장하고, 2) 우리의 합의 모델을 발표하여 교모세포종에 대한 추가 분석을 촉진하고, 3) 그러한 분야에서 FL 효과를 입증합니다. 규모와 작업 복잡성을 다중 사이트 협업의 패러다임 전환으로 삼아 데이터 공유의 필요성을 완화합니다.

최근 의료 분야의 기술 발전과 환자 문화가 반응형에서 사전형으로 바뀌면서 의료 시스템에서 생성된 일차 관찰이 급격하게 증가했습니다. 이러한 관찰에는 철저한 평가가 필요하기 때문에 이는 임상 전문가의 소진에 기여합니다. 이러한 상황을 완화하기 위해 기계 학습(ML) 방법의 개발, 평가 및 최종 임상 번역을 위한 수많은 노력이 있어 이러한 관찰 간의 관련 관계를 식별함으로써 임상 전문가의 부담을 줄였습니다. ML, 특히 딥 러닝(DL)의 발전은 이러한 복잡한 의료 문제를 해결하는 데 가능성을 보여주었습니다. 그러나 모델 교육에 참여하지 않은 소스의 데이터, 즉 "샘플 외부" 데이터1,2에 대한 일반화 가능성에 대한 우려가 있습니다. 문헌에 따르면 강력하고 정확한 모델을 훈련하려면 많은 양의 데이터3,4,5가 필요하며, 그 다양성은 "샘플 외" 사례6에 대한 모델 일반화 가능성에 영향을 미칩니다. 이러한 문제를 해결하려면 다양한 인구 표본을 대표하는 수많은 현장에서 얻은 데이터에 대해 모델을 교육해야 합니다. 이러한 다중 사이트 협업을 위한 현재 패러다임은 "중앙 집중식 학습"(CL)입니다. 여기서는 서로 다른 사이트의 데이터가 사이트 간 합의에 따라 중앙 위치로 공유됩니다6,7,8,9. 그러나 이러한 데이터 중앙 집중화는 개인 정보 보호, 데이터 소유권, 지적 재산권, 기술 문제(예: 네트워크 및 저장 제한)와 관련된 우려10,11로 인해 특히 글로벌 규모에서 확장하기 어렵고 실행 가능하지 않을 수도 있습니다. 다양한 규제 정책(예: 미국의 HIPAA(건강 보험 이전 및 책임에 관한 법률)12 및 유럽 연합의 GDPR(일반 데이터 보호 규정)13)을 준수합니다. 이러한 중앙 집중식 패러다임과 달리 "연합 학습"(FL)은 분산형 데이터의 모델 매개변수 업데이트만 공유하여 모델을 훈련하는 패러다임을 설명합니다(즉, 각 사이트는 해당 데이터를 로컬에 유지함)10,11,14,15,16, CL 훈련 모델11,15,17,18,19,20,21과 비교할 때 성능 저하 없이. 따라서 FL은 CL에 대한 대안을 제공할 수 있으며 잠재적으로 데이터 공유의 필요성을 완화하는 패러다임 전환을 창출하고 지리적으로 서로 다른 공동 작업자에 대한 액세스를 늘려 ML 모델을 훈련하는 데 사용되는 데이터의 크기와 다양성을 높일 수 있습니다.

 0.067, Wilcoxon signed-rank test) ones between the preliminary and the final consensus model, as quantified in the centralized out-of-sample data for all sub-compartments and their average (Fig. 2)./p> 200 cases. Note the box and whiskers inside each violin plot, represent the true min and max values. The top and bottom of each "box" depict the 3rd and 1st quartile of each measure. The white line and the red ‘×’, within each box, indicate the median and mean values, respectively. The fact that these are not necessarily at the center of each box indicates the skewness of the distribution over different cases. The "whiskers'' drawn above and below each box depict the extremal observations still within 1.5 times the interquartile range, above the 3rd or below the 1st quartile. Equivalent plots for Jaccard similarity coefficient (JSC) can be observed in supplementary figures./p> 200 cases, and familiar with computational analyses), and coordinated independent model training for each, starting from the public initial model and using only their local training data. The findings of this evaluation indicate that the final consensus model performance is always superior or insignificantly different (pAverage = 0.1, pET = 0.5, pTC = 0.2, pWT = 0.06, Wilcoxon signed-rank test) to the ensemble of the local models of these four largest contributing collaborators, for all tumor sub-compartments (Fig. 2). This finding highlights that even large sites can benefit from collaboration./p>200 cases) by starting from the same public initial model and using only their local training data. The ensemble of these four largest site local models did not show significant performance differences to the final consensus model for any tumor sub-compartment, yet the final consensus model showed superior performance indicating that even sites with large datasets can benefit from collaboration. The underlying assumption for these results is that since each of these collaborators initiated their training from the public initial model (which included diverse data from 16 sites), their independent models and their ensemble could have inherited some of the initial model's data diversity, which could justify the observed insignificant differences (Fig. 2 and Supplementary Fig. 3). Though these findings are an indication that the inclusion of more data alone may not lead to better performance, it is worth noting that these four largest sites used for the independent model training represent comprehensive cancer centers (compared to hospitals in community settings) with affiliated sophisticated labs focusing on brain tumor research, and hence were familiar with the intricacies of computational analyses. Further considering the aforementioned ML performance stagnation effect, we note the need for generalizable solutions to quantify the contribution of collaborating sites to the final consensus model performance, such that future FL studies are able to formally assess both the quantity and the quality of the contributed data needed by the collaborating sites and decide on their potential inclusion on use-inspired studies./p>200 training cases, and performed a comparative evaluation of the consensus model with an ensemble of these "single site models". The per voxel sigmoid outputs of the ensemble were computed as the average of such outputs over the individual single-site models. As with all other models in this study, binary predictions were computed by comparing these sigmoid outputs to a threshold value of 0.5. The single-site model ensemble utilized (via the data at the single site) approximately 33% of the total data across the federation./p>