# Install necessary packages
!pip install -q chembl_webresource_client rdkit-pypi keras tensorflow matplotlib
import pandas as pd
from chembl_webresource_client.new_client import new_client
from rdkit import Chem
from rdkit.Chem import AllChem, DataStructs
from sklearn.model_selection import train_test_split
from keras.models import Sequential
from keras.layers import Dense
from keras.optimizers import Adam
import matplotlib.pyplot as plt

   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 55.2/55.2 kB 1.6 MB/s eta 0:00:00
   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 29.4/29.4 MB 22.6 MB/s eta 0:00:00
   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 61.4/61.4 kB 2.8 MB/s eta 0:00:00
   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 66.4/66.4 kB 3.0 MB/s eta 0:00:00

# Retrieve bioactivity data for target CHEMBL235
target = new_client.target
activity = new_client.activity

# Fetch bioactivity data for the target CHEMBL235
activities = activity.filter(target_chembl_id="CHEMBL235").filter(standard_type="IC50")

# Convert to pandas DataFrame
activity_df = pd.DataFrame(activities)

# Check the first few rows of the data
print(activity_df.head())

# Filter out rows where 'standard_value' is None or NaN
activity_df = activity_df[activity_df['standard_value'].notna()]

# Define a threshold for bioactivity classification (e.g., 1000 nM for IC50)
threshold = 1000  # threshold for bioactivity (nM)

# Convert 'standard_value' to float and apply the threshold for classification
activity_df['bioactivity_class'] = activity_df['standard_value'].apply(lambda x: 1 if float(x) < threshold else 0)

# Print the first few rows to check
print(activity_df.head())

# Check label distribution
label_distribution = activity_df['bioactivity_class'].value_counts()

# Print the distribution of the labels
print(label_distribution)

# Optionally, display the percentage of each class
label_percentage = activity_df['bioactivity_class'].value_counts(normalize=True) * 100
print(label_percentage)

import numpy as np

# Extract SMILES strings and bioactivity labels
smiles_list = activity_df['canonical_smiles'].tolist()
labels = activity_df['bioactivity_class'].tolist()

# Generate Morgan fingerprints and store them as NumPy arrays
morgan_fps = []
for smiles in smiles_list:
    mol = Chem.MolFromSmiles(smiles)
    if mol:
        fp = AllChem.GetMorganFingerprintAsBitVect(mol, 2, nBits=2048)
        arr = np.zeros((1,))                        # Initialize a NumPy array
        DataStructs.ConvertToNumpyArray(fp, arr)    # convert the computed fp to array
        morgan_fps.append(arr)                      # Add arr to our morgan_fps

# Convert the list of NumPy arrays to a DataFrame
X = pd.DataFrame(morgan_fps)
y = pd.Series(labels)

print(X.head())
print(y.head())

# Split the data into training and test sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Build a Neural Network Model for QSAR Classification
model = Sequential() # build the sequential model
model.add(Dense(256, input_dim=X_train.shape[1], activation='relu')) # add the input layer
model.add(Dense(128, activation='relu'))
model.add(Dense(64, activation='relu'))
model.add(Dense(1, activation='sigmoid'))  # Binary classification output

# Compile the model
model.compile(loss='binary_crossentropy', optimizer=Adam(learning_rate=0.001), metrics=['accuracy'])
history = model.fit(X_train, y_train, validation_data=(X_test, y_test), epochs=50, batch_size=32)

54/54 ━━━━━━━━━━━━━━━━━━━━ 2s 13ms/step - accuracy: 0.7182 - loss: 0.5483 - val_accuracy: 0.8406 - val_loss: 0.3795
Epoch 2/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 10ms/step - accuracy: 0.8862 - loss: 0.2813 - val_accuracy: 0.8499 - val_loss: 0.3426
Epoch 3/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 10ms/step - accuracy: 0.9119 - loss: 0.2143 - val_accuracy: 0.8499 - val_loss: 0.3236
Epoch 4/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 10ms/step - accuracy: 0.9285 - loss: 0.1782 - val_accuracy: 0.8314 - val_loss: 0.3885
Epoch 5/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 10ms/step - accuracy: 0.9574 - loss: 0.1161 - val_accuracy: 0.8568 - val_loss: 0.3895
Epoch 6/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 10ms/step - accuracy: 0.9448 - loss: 0.1262 - val_accuracy: 0.8499 - val_loss: 0.4554
Epoch 7/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 10ms/step - accuracy: 0.9622 - loss: 0.0970 - val_accuracy: 0.8453 - val_loss: 0.3992
Epoch 8/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 15ms/step - accuracy: 0.9643 - loss: 0.0954 - val_accuracy: 0.8591 - val_loss: 0.4734
Epoch 9/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 18ms/step - accuracy: 0.9666 - loss: 0.0744 - val_accuracy: 0.8453 - val_loss: 0.5137
Epoch 10/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 20ms/step - accuracy: 0.9595 - loss: 0.0908 - val_accuracy: 0.8430 - val_loss: 0.6007
Epoch 11/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 18ms/step - accuracy: 0.9662 - loss: 0.0641 - val_accuracy: 0.8568 - val_loss: 0.5041
Epoch 12/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 18ms/step - accuracy: 0.9727 - loss: 0.0574 - val_accuracy: 0.8522 - val_loss: 0.6215
Epoch 13/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 15ms/step - accuracy: 0.9733 - loss: 0.0502 - val_accuracy: 0.8545 - val_loss: 0.6615
Epoch 14/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 10ms/step - accuracy: 0.9785 - loss: 0.0506 - val_accuracy: 0.8522 - val_loss: 0.5708
Epoch 15/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 10ms/step - accuracy: 0.9735 - loss: 0.0464 - val_accuracy: 0.8545 - val_loss: 0.6658
Epoch 16/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 10ms/step - accuracy: 0.9738 - loss: 0.0555 - val_accuracy: 0.8476 - val_loss: 0.6975
Epoch 17/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 10ms/step - accuracy: 0.9769 - loss: 0.0497 - val_accuracy: 0.8568 - val_loss: 0.7514
Epoch 18/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 10ms/step - accuracy: 0.9693 - loss: 0.0479 - val_accuracy: 0.8522 - val_loss: 0.7392
Epoch 19/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 10ms/step - accuracy: 0.9813 - loss: 0.0430 - val_accuracy: 0.8545 - val_loss: 0.7762
Epoch 20/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 9ms/step - accuracy: 0.9762 - loss: 0.0469 - val_accuracy: 0.8476 - val_loss: 0.7713
Epoch 21/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 10ms/step - accuracy: 0.9767 - loss: 0.0430 - val_accuracy: 0.8522 - val_loss: 0.8472
Epoch 22/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 10ms/step - accuracy: 0.9777 - loss: 0.0522 - val_accuracy: 0.8568 - val_loss: 0.7118
Epoch 23/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 10ms/step - accuracy: 0.9709 - loss: 0.0544 - val_accuracy: 0.8591 - val_loss: 0.7003
Epoch 24/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 9ms/step - accuracy: 0.9721 - loss: 0.0640 - val_accuracy: 0.8637 - val_loss: 0.5685
Epoch 25/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 10ms/step - accuracy: 0.9739 - loss: 0.0488 - val_accuracy: 0.8499 - val_loss: 0.6379
Epoch 26/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 10ms/step - accuracy: 0.9818 - loss: 0.0363 - val_accuracy: 0.8684 - val_loss: 0.6802
Epoch 27/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 10ms/step - accuracy: 0.9739 - loss: 0.0442 - val_accuracy: 0.8545 - val_loss: 0.6614
Epoch 28/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 10ms/step - accuracy: 0.9804 - loss: 0.0450 - val_accuracy: 0.8430 - val_loss: 0.7352
Epoch 29/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 12ms/step - accuracy: 0.9761 - loss: 0.0501 - val_accuracy: 0.8268 - val_loss: 0.8104
Epoch 30/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 15ms/step - accuracy: 0.9706 - loss: 0.0501 - val_accuracy: 0.8568 - val_loss: 0.7494
Epoch 31/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 14ms/step - accuracy: 0.9815 - loss: 0.0463 - val_accuracy: 0.8637 - val_loss: 0.7265
Epoch 32/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 9ms/step - accuracy: 0.9804 - loss: 0.0362 - val_accuracy: 0.8684 - val_loss: 0.7598
Epoch 33/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 10ms/step - accuracy: 0.9756 - loss: 0.0401 - val_accuracy: 0.8637 - val_loss: 0.8330
Epoch 34/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 10ms/step - accuracy: 0.9816 - loss: 0.0344 - val_accuracy: 0.8637 - val_loss: 0.8021
Epoch 35/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 10ms/step - accuracy: 0.9787 - loss: 0.0329 - val_accuracy: 0.8637 - val_loss: 0.8744
Epoch 36/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 10ms/step - accuracy: 0.9807 - loss: 0.0323 - val_accuracy: 0.8637 - val_loss: 0.9540
Epoch 37/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 10ms/step - accuracy: 0.9833 - loss: 0.0358 - val_accuracy: 0.8568 - val_loss: 0.7979
Epoch 38/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 11ms/step - accuracy: 0.9828 - loss: 0.0357 - val_accuracy: 0.8661 - val_loss: 0.9308
Epoch 39/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 10ms/step - accuracy: 0.9813 - loss: 0.0441 - val_accuracy: 0.8707 - val_loss: 0.9114
Epoch 40/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 10ms/step - accuracy: 0.9835 - loss: 0.0310 - val_accuracy: 0.8661 - val_loss: 0.9859
Epoch 41/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 9ms/step - accuracy: 0.9790 - loss: 0.0363 - val_accuracy: 0.8684 - val_loss: 0.9941
Epoch 42/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 9ms/step - accuracy: 0.9816 - loss: 0.0298 - val_accuracy: 0.8684 - val_loss: 0.9850
Epoch 43/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 10ms/step - accuracy: 0.9803 - loss: 0.0339 - val_accuracy: 0.8637 - val_loss: 1.0097
Epoch 44/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 9ms/step - accuracy: 0.9811 - loss: 0.0362 - val_accuracy: 0.8661 - val_loss: 0.9663
Epoch 45/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 10ms/step - accuracy: 0.9819 - loss: 0.0403 - val_accuracy: 0.8684 - val_loss: 1.0219
Epoch 46/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 9ms/step - accuracy: 0.9772 - loss: 0.0439 - val_accuracy: 0.8637 - val_loss: 1.0598
Epoch 47/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 12ms/step - accuracy: 0.9750 - loss: 0.0405 - val_accuracy: 0.8637 - val_loss: 1.0384
Epoch 48/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 14ms/step - accuracy: 0.9760 - loss: 0.0347 - val_accuracy: 0.8661 - val_loss: 1.0863
Epoch 49/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 14ms/step - accuracy: 0.9790 - loss: 0.0357 - val_accuracy: 0.8430 - val_loss: 1.2446
Epoch 50/50
54/54 ━━━━━━━━━━━━━━━━━━━━ 1s 9ms/step - accuracy: 0.9712 - loss: 0.0612 - val_accuracy: 0.8568 - val_loss: 0.9427

# Evaluate the model
from sklearn.metrics import classification_report, roc_curve, auc
from sklearn.metrics import accuracy_score
import matplotlib.pyplot as plt

loss, accuracy = model.evaluate(X_test, y_test) # evaluate the trained model
print(f"Test accuracy: {accuracy * 100:.2f}%")

# After training and evaluating the model, let's predict on the test set
y_pred = model.predict(X_test)
y_pred = (y_pred > 0.5).astype(int)  # Convert probabilities to binary classification (0 or 1)

# Step 1: Generate a Classification Report
print("Classification Report:")
print(classification_report(y_test, y_pred))

# Step 2: Calculate ROC Curve and AUC (Area Under the Curve)
y_pred_prob = model.predict(X_test).ravel()  # Predicted probabilities
fpr, tpr, thresholds = roc_curve(y_test, y_pred_prob)
roc_auc = auc(fpr, tpr)

# Step 3: Plot the ROC Curve
plt.figure()
plt.plot(fpr, tpr, label='ROC curve (area = %0.2f)' % roc_auc)
plt.plot([0, 1], [0, 1], 'k--')  # Dashed diagonal line
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic (ROC)')
plt.legend(loc="lower right")
plt.show()

14/14 ━━━━━━━━━━━━━━━━━━━━ 0s 3ms/step

1 Introduction¶

2 Simple QSAR Model Example¶

2.1 Data preparation¶

Step 1: Install Reqired Libraries¶

Step 2: Retrieve Bioactivity Data from ChEMBL API¶

Step 3: Data Processing¶

2.2 Descriptors Calculation¶

2.3 Model Building¶

Step 1: Splitting the Data into Training and Test Sets¶

Step 2: Building a QSAR Model¶

2.4 Model Validation and Testing¶

References¶