Jan 2026

How I Reduced Inference Latency by 43%

Optimizing a BERT sentiment model from 85ms to 48ms using ONNX Runtime, quantization, and request batching. Includes benchmarks and deployment considerations.

Optimization ONNX Production

Layer	Type	Description	Params
INPUT	Foundation	Computer Science & Mathematics	∞
HIDDEN-1	Dense	Machine Learning Fundamentals	512
HIDDEN-2	Conv2D	Deep Learning & Neural Networks	1024
HIDDEN-3	Attention	NLP & Computer Vision	2048
HIDDEN-4	Transformer	LLMs & Generative AI	4096
OPTIM	AdamW	Real-world Deployment & MLOps	lr=0.001
OUTPUT	Softmax	Production-ready ML Systems	∞

Shahin.ai

Model Architecture

Total Parameters

Batch Size

Loss Function

Inference Speed

Research Experiments & Deployments

Dengue Risk Checker — Dhaka

ResearchHub — ML Paper Manager

Training History

Training & Validation Loss

Tech Stack Embeddings

Skill Embedding Space

Core ML

NLP & LLMs

Computer Vision

Data Engineering

MLOps & Cloud

Backend & Tools

Live ML Demos

Sentiment Analyzer

Ask My Portfolio

Resume Classifier

House Price Predictor

Writing & Research Notes

How I Reduced Inference Latency by 43%

Deploying ML Models at Scale with Docker

When NOT to Use Deep Learning

Building RAG Systems That Actually Work

The Gap Between Jupyter and Production

Feature Store Patterns for Small Teams

Let's Build Something Together

Email

GitHub

LinkedIn

My Resume

Send Me a Message

Shahin.ai

Model Architecture

Total Parameters

Batch Size

Loss Function

Inference Speed

Research Experiments & Deployments

Dengue Risk Checker — Dhaka

ResearchHub — ML Paper Manager

Training History

Training & Validation Loss

Tech Stack Embeddings

Skill Embedding Space

Core ML

NLP & LLMs

Computer Vision

Data Engineering

MLOps & Cloud

Backend & Tools

Live ML Demos

Sentiment Analyzer

Ask My Portfolio

Resume Classifier

House Price Predictor

Writing & Research Notes

How I Reduced Inference Latency by 43%

Deploying ML Models at Scale with Docker

When NOT to Use Deep Learning

Building RAG Systems That Actually Work

The Gap Between Jupyter and Production

Feature Store Patterns for Small Teams

Let's Build Something Together

Email

GitHub

LinkedIn

My Resume

Send Me a Message

Shahin — Resume / CV