PDB (Protein Data Bank) ảnh định dạng không phải là một định dạng 'ảnh' truyền thống như JPEG hoặc PNG, mà là một định dạng d ữ liệu lưu trữ thông tin cấu trúc ba chiều về protein, axit nucleic và các tập hợp phức tạp. Định dạng PDB là nền tảng của tin sinh học và sinh học cấu trúc, vì nó cho phép các nhà khoa học hình dung, chia sẻ và phân tích các cấu trúc phân tử của các đại phân tử sinh học. Kho lưu trữ PDB được quản lý bởi Ngân hàng dữ liệu protein toàn cầu (wwPDB), đảm bảo rằng dữ liệu PDB được cung cấp miễn phí và công khai cho cộng đồng toàn cầu.
Định dạng PDB lần đầu tiên được phát triển vào đầu những năm 1970 để phục vụ nhu cầu ngày càng tăng về một phương pháp chuẩn hóa để biểu diễn các cấu trúc phân tử. Kể từ đó, nó đã phát triển để chứa nhiều loại dữ liệu phân tử. Định dạng này dựa trên văn bản và có thể được con người đọc cũng như được máy tính xử lý. Nó bao gồm một loạt các bản ghi, mỗi bản ghi bắt đầu bằng một mã định danh dòng gồm sáu ký tự chỉ định loại thông tin có trong bản ghi đó. Các bản ghi cung cấp mô tả chi tiết về cấu trúc, bao gồm tọa độ nguyên tử, kết nối và dữ liệu thực nghiệm.
Một tệp PDB điển hình bắt đầu bằng phần tiêu đề, bao gồm siêu dữ liệu về cấu trúc protein hoặc axit nucleic. Phần này chứa các bản ghi như TITLE, cung cấp mô tả ngắn gọn về cấu trúc; COMPND, liệt kê các thành phần hóa học; và SOURCE, mô tả nguồn gốc của phân tử sinh học. Tiêu đề cũng bao gồm bản ghi AUTHOR, liệt kê tên của những người xác định cấu trúc và bản ghi JOURNAL, cung cấp trích dẫn cho tài liệu nơi cấu trúc được mô tả lần đầu tiên.
Tiếp theo tiêu đề, tệp PDB chứa thông tin trình tự chính của đại phân tử trong các bản ghi SEQRES. Các bản ghi này liệt kê trình tự các phần tử còn lại (axit amin đối với protein, nucleotide đối với axit nucleic) khi chúng xuất hiện trong chuỗi. Thông tin này rất quan trọng để hiểu mối quan hệ giữa trình tự của một phân tử và cấu trúc ba chiều của nó.
Các bản ghi ATOM được cho là phần quan trọng nhất của tệp PDB, vì chúng chứa tọa độ cho từng nguyên tử trong phân tử. Mỗi bản ghi ATOM bao gồm số sê-ri nguyên tử, tên nguyên tử, tên phần tử còn lại, mã định danh chuỗi, số trình tự phần tử còn lại và tọa độ Descartes x, y và z của nguyên tử tính bằng angstrom. Các bản ghi ATOM cho phép tái tạo cấu trúc ba chiều của phân tử, có thể được hình dung bằng phần mềm chuyên dụng như PyMOL, Chimera hoặc VMD.
Ngoài các bản ghi ATOM, còn có các bản ghi HETATM cho các nguyên tử là một phần của các phần tử còn lại hoặc phối tử không chuẩn, chẳng hạn như ion kim loại, phân tử nước hoặc các phân tử nhỏ khác liên kết với protein hoặc axit nucleic. Các bản ghi này được định dạng tương tự như các bản ghi ATOM nhưng được phân biệt để tạo điều kiện xác định các thành phần không phải đại phân tử trong cấu trúc.
Thông tin kết nối được cung cấp trong các bản ghi CONECT, liệt kê các liên kết giữa các nguyên tử. Các bản ghi này không bắt buộc, vì hầu hết các phần mềm phân tích và hình dung phân tử có thể suy ra kết nối dựa trên khoảng cách giữa các nguyên tử. Tuy nhiên, chúng rất quan trọng để xác định các liên kết bất thường hoặc đối với các cấu trúc có phức hợp phối hợp kim loại, trong đó liên kết có thể không rõ ràng chỉ từ tọa độ nguyên tử.