✨Protein
Minh họa cấu trúc 3D của protein [[myoglobin cho thấy cấu trúc bậc 2 của xoắn alpha (màu ngọc lam). Đây là protein đầu tiên được phân giải cấu trúc bằng kỹ thuật tinh thể học tia X. Về phía bên phải tâm giữa các sợi xoắn có một nhóm ngoại (prosthetic group) gọi là nhóm hem (màu xám) liên kết với một phân tử oxy (đỏ).]] Protein (phát âm theo tiếng Anh: , phát âm tiếng Việt: prồ-tê-in hay còn gọi là chất đạm) là phân tử sinh học, hay đại phân tử, gồm nhiều amino acid liên kết lại với nhau. Protein thực hiện rất nhiều chức năng bên trong tế bào, bao gồm các phản ứng trao đổi chất có xúc tác, sao chép DNA, đáp ứng lại kích thích, và vận chuyển phân tử từ một vị trí đến vị trí khác. Các protein khác nhau chủ yếu ở trình tự của các amino acid cấu thành (trình tự này lại được quy định bởi trình tự nucleotide của các gene quy định tương ứng) và ở kết quả của giai đoạn cuộn gập protein (protein folding) thành những cấu trúc 3 chiều xác định lên chức năng của nó.
Một mạch thẳng các nhóm amino acid liên kết với nhau gọi là chuỗi polypeptide. Protein chứa ít nhất một chuỗi dài polypeptide. Các chuỗi polypeptide ngắn, chứa ít hơn 20-30 nhóm amin, hiếm khi được coi như là protein và thường được gọi là peptide, hoặc thỉnh thoảng là oligopeptide. Từng nhóm amino acid được liên kết với nhau bởi liên kết peptide. Trình tự của amino acid trong một protein được xác định bằng trình tự của một gene theo bảng mã di truyền. Trong tự nhiên, nhìn chung là có 20 amino acid tham gia tạo nên protein; tuy nhiên, ở một số sinh vật nhất định, mã di truyền của chúng có thể bao gồm selenocysteine và trong một số Cổ khuẩn là pyrrolysine. Ngay sau khi tổng hợp hoặc thậm chí trong quá trình tổng hợp, các nhóm amin trong một protein thường bị thay đổi tính chất hóa học bởi quá trình sửa đổi sau dịch mã (post-translational modification), làm biến đổi tính chất hóa học và vật lý, sự gập xoắn, tính ổn định, hoạt tính và cuối cùng là chức năng của protein. Một số protein còn có nhóm phi-peptide gắn thêm vào, gọi là nhóm ngoại lai (prosthetic group) hay đồng yếu tố (cofactor). Protein cũng làm việc với nhau để có được một chức năng chuyên biệt, và chúng thường phối hợp để tạo thành dạng phức hệ protein ổn định.
Sau khi được sinh ra, các protein chỉ tồn tại trong một khoảng thời gian nhất định trước khi bị phân giải và được tái sinh bởi bộ máy của tế bào thông qua quá trình quay vòng protein (protein turnover). Vòng đời của một protein được đo bằng chu kỳ bán rã và nằm trong một khoảng giá trị rất lớn. Thời gian tồn tại của protein có thể có giá trị từ vài phút cho đến hàng năm với thời gian sống trung bình khoảng 1–2 ngày trong tế bào động vật. Các protein không bình thường hoặc gập xoắn bị lỗi thường được phân giải nhanh hơn, có thể là do chúng bị đánh dấu để phá hủy hoặc trở nên không ổn định.
Giống như những đại phân tử sinh học khác như polysaccharide và acid nucleic, protein là thành phần thiết yếu của cơ thể sinh vật và tham gia vào mọi quá trình bên trong tế bào. Nhiều protein là những enzyme làm chất xúc tác cho các phản ứng hóa sinh và cần thiết cho trao đổi chất. Protein cũng có chức năng làm cấu trúc hoặc vận động, như actin và myosin ở cơ và protein trong bộ xương tế bào, tạo nên hệ thống các khung đỡ giúp duy trì hình dáng nhất định của tế bào. Các protein khác tham gia vào tín hiệu tế bào, đáp ứng miễn dịch, kết dính tế bào, và chu kỳ tế bào. Ở động vật, protein cần thiết phải có trong bữa ăn để cung cấp các amino acid thiết yếu mà không thể tổng hợp. Quá trình tiêu hóa "bẻ gãy" các protein để sử dụng trong trao đổi chất.
Protein có thể được tinh sạch từ các thành phần khác nhau của tế bào sử dụng nhiều kỹ thuật khác nhau như kỹ thuật siêu ly tâm (ultracentrifugation), kết tủa, điện di, và sắc ký; sự phát triển của kỹ thuật di truyền đã đem lại một số phương pháp để tinh sạch protein. Các phương pháp thường gặp để nghiên cứu cấu trúc và chức năng của protein bao gồm kỹ thuật hóa mô miễn dịch (immunohistochemistry), gây đột biến định hướng điểm (site-directed mutagenesis), tinh thể học tia X, cộng hưởng từ hạt nhân và khối phổ kế.
Hóa sinh
thumb|Cấu trúc hóa học của liên kết peptide (bên dưới) và cấu trúc ba chiều của một liên kết peptide giữa [[alanine với một amino acid bên cạnh (bên trên)]] thumb|Cấu trúc mesome của liên kết peptide kết nối từng amino acid để tạo thành [[polyme protein.]]
Hầu hết các protein đều chứa một hoặc nhiều chuỗi polyme mạch thẳng cấu thành từ tập hợp 20 L-α-amino acid khác nhau. Các amino acid cấu tạo nên protein (amino acid sinh protein) có những đặc điểm cấu trúc giống nhau: đều có một α-carbon mà tại đó một nhóm amin, một nhóm carboxyl, và nhiều loại nhóm bên (side chain) khác nhau có thể liên kết vào. Chỉ có proline là khác với cấu trúc cơ bản này khi nó chứa một vòng tại điểm N-kết thúc của nhóm amin, khiến cho nửa nhóm CO–NH có hình dáng cố định là một mặt phẳng.
Liên kết peptide có hai dạng cộng hưởng (resonance, hay cấu trúc mesome) góp phần tạo nên một số đặc trưng liên kết đôi và làm cản trở sự quay xung quanh trục của nó, vì vậy mà các nguyên tử carbon alpha hầu như là đồng phẳng với nhau. Hai góc nhị diện khác trong liên kết peptide xác định hình dạng cục bộ đảm nhiệm bởi khung xương protein. Điểm kết thúc của protein với một nhóm carboxyl tự do được gọi là điểm kết thúc-C hoặc đầu mút cacboxy, trong khi điểm kết thúc với một nhóm amin tự do được gọi là điểm kết thúc-N hoặc đầu mút amin. Các thuật ngữ protein, polypeptide, và peptide có một chút khó hiểu và có thể mang ý nghĩa chồng lặp. Protein nói chung được sử dụng để nhắc đến những phân tử sinh học hoàn thiện trong cấu hình ổn định, trong khi peptide thường chỉ một oligome amino acid ngắn mà không có cấu trúc ba chiều ổn định. Tuy vậy, ranh giới giữa hai định nghĩa này thường không xác định rõ ràng và thường là peptide dài khoảng 20–30 amino acid.
Nồng độ của các protein trong một tế bào có một phổ giá trị rất rộng, từ chỉ một vài phân tử cho đến hàng trăm nghìn phân tử trong một tế bào. Khoảng một phần ba tổng số protein không được sản sinh ra trong tế bào hay chỉ sinh ra trong những điều kiện nhất định. Ví dụ, trong số 20.000 protein được mã hóa bởi bộ gene ở loài người chỉ có 6.000 được phát hiện trong nguyên bào lympho. Hơn nữa, số lượng protein mà bộ gene mã hóa có mối tương quan với cấu trúc phức tạp của cơ thể vật chủ. Sinh vật nhân thật, vi khuẩn, vi khuẩn cổ và vi rút tương ứng có trung bình 15145, 3200, 2358 và 42 protein được mã hóa trong bộ gene của chúng.
Tổng hợp
Sinh tổng hợp
thumb|Một ribosome sản sinh một protein sử dụng khuôn mẫu mRNA. thumb|Trình tự [[DNA của một gene mã hóa trình tự amino acid trong protein.]]
Protein cấu tạo từ những amino acid lắp ghép lại sử dụng thông tin được mã hóa trong gene. Mỗi protein có trình tự amino acid duy nhất xác định bởi trình tự các nucleotide trong gene mã hóa cho protein này. Mã di truyền là một tập hợp chứa các tập hợp con của các bộ ba-nucleotide gọi là bộ ba mã hóa (codon) và mỗi tổ hợp ba-nucleotide tương ứng cho một amino acid, ví dụ AUG (adenine-uracil-guanine) mã hóa cho methionine. Bởi vì DNA chứa bốn nucleotide, tổng số codon khả dĩ là 64; tuy nhiên chỉ có 20 amino acid nên một số amino acid được mã hóa bởi nhiều hơn một codon.
Kích thước của một protein sinh tổng hợp có thể đo bằng số lượng amino acid chứa trong nó hoặc bằng tổng khối lượng phân tử, mà thông thường tính bằng đơn vị dalton (đồng nghĩa với đơn vị khối lượng nguyên tử), hoặc đơn vị phái sinh kilodalton (kDa). Protein sinh tổng hợp từ nấm men trung bình dài 466 amino acid và có khối lượng 53 kDa. Mặc dù nhiều protein có thể uốn gấp mà không cần hỗ trợ, chỉ đơn giản nhờ vào các đặc tính hóa học của các amino acid thành phần, những protein khác đòi hỏi sự hỗ trợ của phân tử chaperone để uốn gấp thành hình dạng nguyên sinh của chúng. Các nhà hóa sinh phân ra bốn cấp đối với cấu trúc của protein: Cấu trúc sơ cấp hay cấu trúc bậc 1: Là trình tự sắp xếp các gốc amino acid trong chuỗi polypeptide. Cấu trúc này được giữ vững nhờ liên kết peptide (liên kết cộng hóa trị). Một protein là polyamide (poliamit). Cấu trúc bậc 2: Là tương tác không gian giữa các gốc amino acid ở gần nhau trong chuỗi polypeptide. Cấu trúc được bền vững chủ yếu nhờ liên kết hiđrô hình thành giữa các liên kết peptide ở kề gần nhau, cách nhau những khoảng xác định. Các ví dụ cho cấu trúc bậc 2 của phân tử protein là xoắn α (α-helix), phiến gấp nếp β (β-sheet) và các vùng chuyển hướng. Bởi vì cấu trúc bậc 2 mang tính cục bộ, nhiều vùng với các cấu trúc bậc 2 khác nhau có thể tồn tại trong cùng một phân tử protein. Cấu trúc bậc 3: hình dạng tổng thể của một phân tử protein đơn nhất; hay mối quan hệ không gian giữa các cấu trúc bậc 2 với nhau. Nói chung cấu trúc bậc 3 được giữ ổn định bởi các tương tác phi cục bộ, phần lớn bởi sự hình thành một lõi kị nước (hydrophobic core), và ngoài ra giữ bởi các cầu muối (salt bridge), liên kết hiđrô, liên kết disulfide, và thậm chí là các chỉnh sửa sau dịch mã (post-translational modification). Thuật ngữ "cấu trúc bậc 3" thường được sử dụng mang nội dung đồng nghĩa với thuật ngữ uốn gấp. Cấu trúc bậc 3 kiểm soát chức năng cơ bản của protein. Cấu trúc bậc 4: cấu trúc hình thành bởi một số phân tử protein liên kết với nhau (chuỗi polypeptide), mà hay gặp thuật ngữ tiểu đơn vị protein trong trường hợp này, mà chức năng của cấu trúc bậc 4 hoạt động như một phức hợp protein.
Protein không phải là một phân tử "cứng chắc" hoàn toàn. Không chỉ cố định ở một bậc cấu trúc nhất định, protein có thể chuyển sang một vài cấu trúc liên quan khi chúng thực hiện các chức năng sinh học. Trong trường hợp của những sự sắp xếp các chức năng này, các cấu trúc bậc 3 và bậc 4 thường được gọi là "cấu dạng", và sự chuyển tiếp giữa chúng gọi là sự thay đổi cấu dạng. Những thay đổi này thường do sự liên kết của một phân tử cơ chất (substrate molecule) với một vị trí hoạt động của một enzyme, những vùng của protein tham gia vào xúc tác hóa học. Các protein trong dung dịch hòa tan cũng trải qua những biến đổi về cấu trúc tác động bởi các rung động nhiệt và sự va chạm với các phân tử khác.
thumb|Bề mặt phân tử của một vài protein trong sự so sánh về kích cỡ. Từ trái sang phải: [[immunoglobulin G (IgG, một kháng thể), hemoglobin, insulin (một hormone), adenylate kinase (một enzyme), và glutamine synthetase (một enzyme).]]
Toàn bộ protein hoặc những đoạn protein được phân loại thành bốn lớp chính, mà tương quan với cấu trúc bậc 4 của nó: protein dạng cầu (globular protein), protein dạng sợi (fibrous protein), protein màng tích hợp (integral membrane protein) và protein mất trật tự nội tại (intrinsically disordered protein). Phần lớn toàn bộ protein dạng cầu có thể tan được và đa phần là các enzyme. Protein dạng sợi thường có vai trò cấu trúc, như collagene, thành phần chính của các mô liên kết, hay keratin, thành phần protein của tóc và móng chân tay. Protein dạng màng thường phục vụ như là những thụ thể hoặc làm kênh dẫn cho các phân tử mang điện tích hay phân cực vượt qua màng tế bào. Protein mất trật tự nội tại khác biệt cơ bản về tính trật tự về cấu hình hình dạng với ba loại trên. Nhiều protein có hình dạng xác định rõ ràng khi ở dạng nguyên thể (native), nhưng protein mất trật tự nội tại thì không, chuỗi polypeptide của chúng rất linh động và không có một hình dáng nhất định. Tính chất này cho phép protein mất trật tự nội tại có thể tương tác với nhiều protein đối tác hoặc gập thành những hình dáng nhất định chỉ khi nó liên kết với những đối tác này. Protein mất trật tư nội tại thường là các phân tử truyền tín hiệu, điều hòa hoạt động cho những phân tử khác, hoặc làm bộ khung cho các protein khác bám vào. một kỹ thuật biến thể khác gọi là "xác định cấu trúc tinh thể bằng kính hiển vi điện tử truyền qua" (electron crystallography) có thể thu được độ phân giải lớn ở một số trường hợp, đặc biệt đối với những tinh thể hai chiều ở các protein dạng màng. Tập hợp các protein biểu hiện trong một tế bào cụ thể hoặc một loại tế bào được gọi là hệ protein (proteome) hay bộ protein hoàn chỉnh.
nhỏ|right|Enzyme [[hexokinase được minh họa theo mô hình phân tử thường gặp quả bóng và thanh nối. Để so tỷ lệ, ở góc bên phải là hai cơ chất của nó, ATP và glucose.]]
Đặc trưng chính của protein mà cũng làm lên các chức năng đa dạng đó là khả năng của chúng liên kết một cách đặc hiệu và chặt với các phân tử khác. Vùng protein có tính năng liên kết với các phân tử khác được gọi là vùng liên kết (binding site) và thường là những khe rãnh (depression) hoặc "túi" ("pocket") trên bề mặt phân từ. Khả năng liên kết này được thực hiện trung gian thông qua bởi cấu trúc bậc ba của protein, mà xác định vị trí túi liên kết, và bởi các tính chất hóa học của các chuỗi nhánh bên amino acid xung quanh. Liên kết protein có thể rất đặc hiệu và cực kỳ chặt; ví dụ, protein ức chế ribonuclease (ribonuclease inhibitor protein) liên kết với protein angiogenein ở người với hằng số phân ly cỡ dưới femto mol (<10−15 M) nhưng không liên kết với protein onconase tương đồng ở động vật lưỡng cư (>1 M). Những sự thay đổi hóa học rất nhỏ như thêm vào một nhóm methyl ở phân tử liên kết đôi khi đủ làm gần như loại bỏ liên kết với protein; ví dụ, aminoacyl tRNA synthetase đặc hiệu với amino acid valine lại rất phân biệt với isoleucine mặc dù hai amino acid này có chuỗi bên rất tương đồng. Do tương tác giữa các protein là thuận nghịch, và phụ thuộc nhiều vào khả năng của các nhóm protein khác nhau để hình thành lên tổ hợp có khả năng thực hiện các chức năng riêng rẽ, lĩnh vực nghiên cứu tương tác giữa các protein đặc hiệu là chìa khóa nhằm hiểu biết những khía cạnh quan trọng của chức năng tế bào, và đi đến những tính chất giúp phân biệt giữa các loại tế bào đặc biệt.
Kháng thể là những thành phần protein của một hệ miễn dịch thu được (adaptive immune system) có chức năng chính là liên kết với các kháng nguyên, hoặc những cơ chất lạ bên trong tế bào của cơ thể, và nhận diện đánh dấu chúng để tiêu hủy. Kháng thể có thể tiết vào môi trường ngoại bào hoặc bám vào màng của những tế bào B chuyên biệt (B cell) gọi là tế bào plasma. Trong khi các enzyme bị giới hạn ở ái lực liên kết với các chất nền bởi tính cần thiết cho việc điều khiển phản ứng mà chúng tham gia, các kháng thể lại không bị giới hạn này. Ái lực liên kết của các kháng thể với mục tiêu của nó là cực kỳ cao.
Nhiều phối tử (ligand) vận chuyển các protein gắn đặc hiệu cùng với các phân tử sinh học nhỏ và vận chuyển chúng đến những vị trí khác nhau trong cơ thể của một sinh vật đa bào. Những protein này phải có ái lực liên kết lớn khi các phối tử có mặt ở mức độ tập trung lớn, nhưng cũng giải phóng được phối tử khi sự có mặt của chúng ở mức độ thấp tại những mô đích đến. Ví dụ điển hình của protein liên kết phối tử là haemoglobin, giúp vận chuyển oxy từ phổi đến các mô và các cơ quan khác ở động vật có xương sống và có sự tương đồng gần gũi trong mọi giới sinh học. Lectin là những protein liên kết với đường có chức năng đặc hiệu cao với phân tử đường của nó. Lectin đóng vai trò điển hình trong hiệu ứng nhận dạng phân tử ở tế bào và các protein.
Protein cấu trúc
Tropocollagene ba sợi xoắn. Bộ khung bên trong tế bào nhân thật chụp bởi kính [[hiển vi siêu phân giải: Sợi actin được đánh màu đỏ, các vi ống kết hợp bởi beta tubulin được đánh dấu màu lục, nhân tế bào màu lam.]]
Các protein cấu trúc đem lại tính vững trãi và sự cứng chắc cho các thành phần sinh học không ở trạng thái lỏng khác. Hầu hết các protein cấu trúc là những protein dạng sợi; ví dụ, collagen và elastin là những thành phần quan trọng của mô liên kết như sụn, và keratin được tìm thấy trong các cấu trúc cứng hoặc có dạng sợi như lông, móng, lông vũ, móng guốc, và vỏ giáp ngoài. Một số protein dạng cầu cũng đóng vai trò làm chức năng sinh học, ví dụ, sợi actin và tubulin có dạng cầu và hòa tan được khi là các monome, nhưng khi bị polyme hóa tạo thành dạng sợi dài, cứng giúp cấu thành lên bộ xương tế bào, cho phép tế bào duy trì hình dạng và kích thước của nó.
Những protein khác phục vụ chức năng cấu trúc là protein động cơ như myosin, kinesin, và dynein, mà chúng có khả năng sinh ra lực cơ học. Những protein này đặc biệt quan trọng cho sự di chuyển (motility) của tế bào ở những sinh vật đơn bào và của tinh trùng ở phần lớn sinh vật đa bào cho hoạt động sinh sản. Chúng cũng sinh ra lực đẩy làm cơ co lại và đóng vai trò quan trọng ở quá trình vận chuyển bên trong tế bào.
Phương pháp nghiên cứu
Các hoạt động và chức năng của protein có thể nghiên cứu trong ống nghiệm (in vitro), in vivo, và in silico. Phương pháp in vitro nghiên cứu các protein được sàng lọc trong những môi trường có kiểm soát giúp tìm hiểu một protein thực hiện chức năng của nó như thế nào: ví dụ, lĩnh vực nghiên cứu động học enzyme (enzyme kinetic) khám phá cơ chế phản ứng của sự hoạt động xúc tác của một enzyme và ái lực của nó đối với nhiều phân tử cơ chất khác nhau. Ngược lại, phương pháp thực nghiệm in vivo cung cấp thông tin về vai trò sinh lý của một protein bên trong tế bào hay thậm chí toàn bộ sinh vật. Phương pháp in silico sử dụng các phương pháp của tin sinh học để nghiên cứu protein.
Tinh sạch protein
thế=|nhỏ|250x250px|Thiết bị sắc ký FPLC dùng trong tinh chế protein Để thực hiện phân tích in vitro, một protein cần nghiên cứu phải được tinh sạch và sàng lọc (protein purification) khỏi những thành phần khác của tế bào. Quá trình này thường bắt đầu bằng cách phá tế bào (hay tiêu tế bào, cytolysis), khi ấy màng tế bào bị phá vỡ khi lượng nước thẩm thấu quá nhiều vào trong tế bào và các thành phần bên trong được giải phóng vào một dung môi gọi là dung dịch thủy phân tế bào (crude lysate, hay cytolysate). Hỗn hợp thu được được tinh sạch bằng phương pháp siêu ly tâm (ultracentrifugation), mà phân tách nhiều thành phần tế bào thành các phần chứa các protein hòa tan khác nhau; như màng lipid và protein; bào quan tế bào, và acid nucleic. Hỗn hợp được kết tinh bằng phương pháp tách tinh thể muối (salting out) cho phép tập trung protein từ dung dịch này. Sau đó sử dụng nhiều kỹ thuật sắc ký để cô lập một hoặc một vài protein cần nghiên cứu dựa trên những tính chất của chúng như trọng lượng phân tử, tổng điện tích và ái lực liên kết. Mức độ sàng lọc được giám sát nhờ sử dụng nhiều kỹ thuật điện di trên gel (gel electrophoresis) nếu biết trọng lượng phân tử và điểm đẳng điện (isoelectric point) của protein cần nghiên cứu, hoặc bằng phân tích phổ nếu protein có những đặc trưng phổ dễ phân biệt, hoặc bằng thí nghiệm thử enzyme (enzyme assay) nếu protein có hoạt tính enzyme. Thêm vào đó, protein có thể được cô lập theo điện tích của chúng nhờ sử dụng phương pháp tập trung đẳng điện (isoelectric focusing). Dự đoán và phân tích protein mất trật tự do đó là một mảng quan trọng của nghiên cứu cấu trúc protein.
Dinh dưỡng
[[Pho mát.]] Canh chua gồm [[rau muống.]] Hầu hết các vi sinh vật và thực vật có thể sinh tổng hợp tất cả 20 amino acid chính, trong khi động vật (bao gồm con người) phải lấy một số amino acid từ thức ăn. Các mẫu được chú ý ở thời điểm đó bao gồm albumin từ lòng trắng trứng, serum albumin máu, fibrin, và gluten hạt lúa mì.
Nhà hóa học người Hà Lan Gerardus Johannes Mulder là người đầu tiên miêu tả về protein và tên gọi này được nhà hóa học người Thụy Điển Jöns Jacob Berzelius đặt vào năm 1838. Mulder thực hiện các phân tích sơ cấp về những protein phổ biến và ông tìm thấy gần như mọi protein có cùng một công thức thực nghiệm, C400H620N100O120P1S1. "dẫn đầu", hoặc "đứng phía trước", Vai trò trung tâm của protein làm enzyme xúc tác trong sinh vật sống không được đánh giá đầy đủ cho đến tận năm 1926, khi James B. Sumner chỉ ra enzyme urease thực chất là một protein.
Sự khó khăn trong quá trình tinh sạch protein thành lượng lớn khiến các nhà hóa sinh nghiên chúng rất khó khăn ở thời điểm đầu. Do vậy, những nghiên cứu ban đầu tập trung vào những protein được tinh lọc lượng lớn, ví dụ như của máu, lòng trứng trắng, nhiều độc tố khác nhau, và các enzyme tiêu hóa / trao đổi chất lấy từ các lò sát sinh. Trong thập niên 1950, công ty Armour Hot Dog Co. đã lọc được khoảng 1 kg thuần khiết ribonuclease A từ tuyến tụy của bò và cung cấp miễn phí cho các nhà khoa học; nhờ thế mà ribonuclease A trở thành mục tiêu nghiên cứu chính của hóa sinh trong hàng thập kỷ sau đó. thumb|[[John Kendrew đang nghiên cứu mô hình myoglobin.]]
Linus Pauling được ghi nhận là đã đưa ra mô hình dự đoán thành công cấu trúc bậc 2 của các protein đối xứng đều dựa trên liên kết hiđrô, ý tưởng ông lấy từ William Astbury vào năm 1933. Công trình nghiên cứu sau đó của Walter Kauzmann về sự biến tính, dựa một phần trên nghiên cứu trước đây của Kaj Linderstrøm-Lang, đóng góp vào hiểu biết quá trình gập protein (protein folding) và cấu trúc trung gian bởi tương tác kị nước.
Protein được giải trình tự đầu tiên là insulin, do Frederick Sanger thực hiện vào năm 1949. Sanger đã xác định đúng trình tự các amino acid của insulin, vì thế chứng minh một cách thuyết phục rằng các protein là những polymer mạch thẳng chứa các amino acid hơn là các mạch nhánh, hệ keo, hoặc cyclol. Ông giành giải Nobel Hóa học cho thành tựu này vào năm 1958.
Cấu trúc protein lần đầu tiên được quan sát là của hemoglobin và myoglobin, do Max Perutz và Sir John Cowdery Kendrew, thực hiện một cách độc lập vào năm 1958. , ngân hàng dữ liệu protein (Protein Data Bank) chứa hơn 126.060 protein có cấu trúc được quan sát ở cấp độ nguyên tử. Trong thời gian gần đây, kỹ thuật hiển vi electron lạnh (cryo-electron microscopy) đối với quá trình lắp ráp đại phân tử và tính toán dự đoán cấu trúc protein (computational protein structure prediction) của các miền protein nhỏ (small protein domain) là hai phương pháp tiếp cận chính trong nghiên cứu cấu trúc protein.