Thiết kế protein và dự đoán de novo protein ~ Nathan Hồ Anh Nhựt

Bài chỉ mang tính chất tham khảo và do những gì Nhựt hiểu được từ nhiều nguồn

Theo định nghĩa, việc thiết kế protein là quá trình xây dựng các phân tử protein mới, bằng cách thiết kế một phân tử protein dựa trên các nguyên lý cơ bản nhất, hoặc sửa đổi cấu trúc của một protein đang có, nhằm mục đích:

- Nghiên cứu quá trình lắp ráp của các protein và các nhân tố của chuỗi sơ cấp tham gia vào sự cuộn xoắn, ổn định và thể hiện chức năng của chúng. Các đặc điểm này có thể được khảo sát bằng cách sửa đổi một hoặc nhiều amino acid đặc trưng theo một kiểu đã được định hướng trong protein và quan sát kết quả sau khi sản xuất phiên bản đã được sửa đổi. Thông thường các protein có trình tự tương tự không giống nhau hoàn toàn, tồn tại trong tự nhiên sẽ có các tính chất hơi khác nhau và người ta có thể dựa vào các trình tự khác nhau này để tiến hành những sửa đổi sau đó.

- Sản xuất các phân tử protein ổn định cho một mục đích công nghệ đặc biệt, tuy nhiên các phiên bản được tìm thấy trong tự nhiên không có các tính chất tối ưu cần thiết. Ví dụ: một enzyme có thể được xem như một phần của một quá trình công nghiệp nhưng một điểm đặc trưng của protein, chẳng hạn độ ổn định nhiệt hoặc là độ pH tối ưu cho hoạt tính xúc tác… không thể tương thích với quá trình đó. Các thay đổi amino acid có thể biến đổi enzyme này sao cho nó thực hiện chức năng tốt hơn trong môi trường mới.

Muốn công nghệ hóa một protein cần phải hiểu biết về các nguyên lý cấu trúc của protein đó và đặc điểm của nguyên liệu để thiết kế hợp lý, hoặc sửa đổi các tính chất mong muốn. Hơn nữa, công nghệ này phải có được các công cụ sản xuất và phân tích protein mong muốn. Các công cụ và nguyên lý cơ bản hiện nay đang được phát triển song song.

Việc thiết kế cấu trúc protein có thể tiến hành từ lúc ban đầu hoặc bằng cách làm biến tính trên một cấu trúc protein đã biết và trình tự của nó (hay còn gọi là protein redesign). Việc thiết kế protein hợp lý giúp việc dự đoán trình tự protein sẽ đưa ra những cấu trúc gấp đặc trưng. Những trình tự dự đoán này sau đó có thể được đánh giá bằng thực nghiệm thông qua các phương pháp như tổng hợp peptide, đột biết khu vực có định hướng hay tổng hợp gen nhân tạo.

Dự đoán de novo protein

Trong sinh tin học, việc dự đoán cấu trúc de novo protein đề cập đến quá trình thuật toán mà cấu trúc bậc ba của protein được dự đoán từ chuỗi amino acid bậc một của chúng. Đât là vấn đề nan giải chiếm nhiều thời gian nghiên cứu của các nhà khoa học mà hiện nay vẫn chưa được giải quyết. Ngày nay, một số phương pháp thành công cho phép dự đoán cấu trúc gấp của các vùng protein nhỏ lẻ trong vòng 1,5 angstrom của toàn bộ cấu trúc.

Thiết kế protein de novo là một công việc rất phức tạp. Về nguyên tắc, đối với một protein bất kỳ có n gốc amino acid thì khả năng sẽ có 2× 10n trình tự khác nhau. Các cơ sở dữ liệu về cấu trúc và trình tự protein cho thấy nhiều trình tự có thể được điều chỉnh sự cuộn xoắn tương tự nhau và chúng có thể thực hiện các chức năng tương tự. Vì thế, phương pháp tiếp cận ngược lại để chọn lựa số lần cuộn xoắn thích hợp và sau đó xác định trình tự nào cần thiết để tạo ra sự cuộn xoắn mong muốn và có chức năng liên quan thích hợp hơn. Dahiyat và Mayo (1997) đã mô tả các phương pháp máy tính để thiết kế các trình tự của vùng peptide. Chỉ khi có trình tự peptide thì protein mới có thể được xây dựng hoặc bằng tổng hợp peptide (nếu trình tự có kích thước vừa phải) hoặc bằng tổng hợp gen. Gần đây, các phương pháp khuếch đại PCR để tổng hợp gen thường được sử dụng nhất, để làm đầy và khuếch đại từng phần các oligonucleotide chồng lấp nhau (overlap extension).

Phương pháp de novo đòi hỏi nguồn lực tính toán lớn và do đó chỉ thực hiện đối với các protein tương đối nhỏ. Việc dự đoán cấu trúc protein lớn hơn đòi hỏi những thuật toán tốt hơn cũng như các nguồn lực máy tính mạnh mẽ hơn (như Ble Gene hoặc MDGRAPE-3) hay dự án tính toán phân tán (như Folding@home, Rosetta@home, the Human Proteome Foldin Project hay Nutritious Rice For The World). Mặc dù những rào cản cho việc tính toán rất lớn nhưng những lợi ích tiềm năng của hệ gen cấu trúc (bằng việc thực nghiệm hay dự đoán) cho các ứng dụng y học và thiết kế thuộc làm cho việc dự đoán cấu trúc de novo trở nên đầy hứa hẹn.

Hiện nay, khoảng cách giữa các chuỗi protein đã biến và các cấu trúc protein còn rất lớn. Vào đầu năm 2008, chỉ có khoảng 1% trình tự được liệt kê tại cơ sở dữ liệu UniKProtKB tương ứng với cấu trúc trong Ngân hàng dữ liệu Protein (PDB) và khoảng cách giữa chúng xấp xỉ là năm triệu. Kỹ thuật thực nghiệm để xác định cấu trúc bậc ba đã phải đối mặt với những thách thức quan trong trong khả năng xác định cấu trúc protein. Ví dụ, trong khi X-quang tinh thể học đã thành công trong trong việc kết tinh khoảng 80.000 protein cytosolic, và thành công một phần trong việc kết tinh màng tế bào khoảng 280.

Phương pháp dự đoán cấu trúc de novo protein cố gắng để dự đoán cấu trúc bậc ba từ trình tự acid amin dựa trên những nguyên tắc chung chi phối năng lương gấp protein và khuynh hướng thống kê các đặc tính hình dáng mà cấu trúc tự nhiên yêu cầu, mà không cần sử dụng các mẫu cụ thể.

Nghiên cứu trong việc dự đoán cấu trúc de novo chủ yếu tập trung trong ba lĩnh vực:

Những protein đại diện có độ phân giải thấp hơn.
Các chức năng năng lương chính xác
Phương pháp lấy mẫu hiệu quả.

Chuỗi Amino acid để xác định cấu trúc bậc ba protein

Đã có nhiều bằng chứng ủng hộ cho quan điểm rằng trình tự chuỗi acid amin bậc một chứa tất cả các thông tin cần cho cấu trúc không gian ba chiều tổng thể, điều này đã làm nên ý tưởng cho việc dữ đoán de novo protein là có cơ sở.

- Trước hết, những protein với các chức năng khác nhau luôn luôn có những trình tự amino acid khác nhau.
- Thứ hai, một vài loại bệnh khác nhau ở người như bệnh teo cơ Duchenne, có thể liên kết với việc mất chức năng protein là hậu quả từ việc thay đổi bất thường ở một amino acid nào đó ở cấu trúc bậc một.
- Thứ ba, những protein với các chức năng tương tự nhau trên nhiều loài khác nhau thường có những chuỗi amino acid tương tự nhau. Ví dụ, Ubiquitin là một protein có liên quan đến việc điều chỉnh sự thoái hóa của các protein khác, những chuỗi amino acid của nó gần như là giống nhau ở các loài xa nhau như Drosophila melanogaster và Homo sapiens.
- Thứ tư, thông qua thực nghiệm, người ta có thể suy luận rằng protein xoắn gấp không phải là một quá trình hoàn toàn ngãu nhiên và thông tin cần thiết cho việc xoắn gấp đó cần phải được mã hóa trong cấu trúc bậc một. Cho ví dụ, nếu chúng ta giả định rằng cứ mỗi một amino acid của 100 amino acid chứa trong một polypeptide nhỏ trung bình có thể có tới 10 hình dáng khác nhau, vậy thì sẽ có 10¹⁰⁰ hình dạng khác nhau chứa trong một polypeptide, Nếu một hình dáng mất 10^-13 giây để xác định thì sẽ mất tới 10¹⁷ năm để xác định tất các hình dạng có thể có trong mẫu. Tuy nhiên, các protein được xoắn gấp chính xác trong cơ thể trong khoảng thời gian ngắn trong hầu hết mọi lúc, điều đó có nghĩa rằng quá trình này không thể ngẫu nhiên, vì vậy, nó hoàn toàn có khả năng được mô hình hóa.

Một trong những bằng chứng mạnh mẽ nhất cho giả thiết rằng tất cả các thông tin liên quan đều cần thiết đễ mã hóa cấu trúc bậc ba của protein được tìm thấy trong chuỗi bậc một được chứng minh trong những năm 50 của thế kỷ trước do Christian Anfinsen. Trong một thí nghiệm kinh điển, ông đã cho thấy rằng ribonuclease A có thể bị biến tính hoàn toàn bằng ngâm trong dung dịch ure (để phá vỡ các liên kết kỵ nước bền vững) có sự hiện diện của các tác nhân khử (để tách các liên kết disulfide bền vững). Sau khi loại bỏ protein khỏi môi trướng này, protein tự hồi tính và phục hồi chức năng, chứng minh rằng cấu trúc bậc ba của protein được mã hóa trong cấu trúc chuỗi bậc một. Khi Protein hồi tính ngẫu nhiên thì trên một trăm tái tổ hộ khác nhau của 4 mạch disulfide có thể hình thành. Tuy nhiên, trong đa số trường hợp protein sẽ yêu cầu có sự hiện diện của phân tử chaperons trong tế bào cho việc xoắn gấp hợp lý. Hình dạng tổng thể của protein có thể được mã hóa trong cấu trúc amino acid của nó nhưng sự xoắn gấp có thể dựa trên sự hỗ trợ của chaperons.

Những yêu cầu cho một mô hình de novo protein thành công

Dự đoán cấu trúc de novo thường tiến hành bằng cách hình thành các hình dạng thử nghiệm (mồi) và sau đó lựa chọn dựa trên sự ổn định nhiệt và trạng thái năng lương. Hầu hết các dự đoán thành công sẽ phải có 3 yếu tố sau:

Vùng chức năng năng lượng chính xác tương ứng với trạng thái nhiệt ổn định với cấu trúc bản địa của protein
Phương pháp tìm kiếm hiệu quả có khả năng xác định nhanh chống trạng thái năng lương yếu thông qua việc tìm kiếm hình dạng.
Khả năng chọn lựa mô hình bản địa từ những cấu trúc mẫu

Hạn chế của dự đoán de novo protein

Hạn chế chính của phương pháp này là thời gian máy tính yêu cầu để xử lý thành công protein. Phương pháp phân tán như Rosetta@home đã cố gắng để cải thiện điều này bằng cách tuyển dụng những nhân viên tình nguyện có thời gian rảnh ở nhà để xử lý dữ liệu. Tuy vẫn thậm chí phải đối mặt với những thách thức ví dụ, phương pháp phân tán được dùng bởi một nhóm các nhà nghiên cứu tại đại học Washington và Viên Y Khoa Howard Hughes để dự đoán cấu trúc bậc ba của protein T0283 từ trình tự amino acid của nó. Trong một thử nghiệm người mù so sánh tính chính xác của kỹ thuật phân tán này với cấu trúc xác định được lưu trong Ngân hàng dữ liệu Protein (PDN), các nhà dự đoán đã đứa ra một kết quả tuyệt vời so với cấu trúc được lưu trữ, tuy nhiên, thời gian và số lượng máy tính cần thiết cho chiến dạnh này là rất lớn : gần 2 năm trời và khoảng 70000 máy tính tại nhà.