গবেষণায় সবচেয়ে গুরুত্বপূর্ণ হলো নির্ভরযোগ্য ডেটা।
বর্তমানে বিশ্বের বিভিন্ন সংস্থা, বিশ্ববিদ্যালয় ও গবেষণা প্রতিষ্ঠান তাদের নিজস্ব মূল্যবান ডেটা গবেষকদের জন্য উন্মুক্ত করে দিয়েছে। জেনোমিক্স, প্রোটিওমিক্স, ট্রান্সক্রিপ্টোমিক্স, ক্যান্সার গবেষণা, ড্রাগ ডিসকভারি, স্বাস্থ্যবিজ্ঞান, কৃষি, পরিবেশসহ বিজ্ঞানের প্রায় সব শাখার জন্য নির্ভরযোগ্য ডেটাবেস তৈরি হয়েছে। সেগুলো ডাউনলোড করে যে কেউ গবেষণা শুরু করতে পারে।
আজকাল অনেক ল্যাব আছে যারা এই ফ্রি ডেটা ব্যবহার করেই নিয়মিতভাবে top জার্নালে গবেষণা প্রকাশ করছে।
আজকের এই পোস্টে আমি বিশ্বের কিছু গুরুত্বপূর্ণ ডেটাবেসের তথ্য শেয়ার করছি। এখান থেকে সরাসরি প্রয়োজনীয় ডেটা ডাউনলোড করে আপনি নিজের গবেষণা শুরু করতে পারবেন।
জেনোমিক্স (Genomics) ডেটাবেস
NCBI GenBank
যুক্তরাষ্ট্রের National Center for Biotechnology Information (NCBI) দ্বারা পরিচালিত বিশ্বের সবচেয়ে বড় DNA সিকোয়েন্স ডেটাবেস। এখানে ভাইরাস, ব্যাকটেরিয়া, প্রাণী, উদ্ভিদসহ প্রায় সব ধরনের জীবের জেনোম ও জিন সিকোয়েন্স জমা রাখা হয়।
Ensembl Genome Browser
মানুষ, প্রাণী ও উদ্ভিদের জেনোম ব্রাউজ, তুলনা ও জিন এনোটেশন দেখার জন্য নির্ভরযোগ্য ডেটাবেস।
UCSC Genome Browser
জেনোমিক ডেটা ভিজ্যুয়ালাইজেশনের ক্ষেত্রে এটি সবচেয়ে বেশি জনপ্রিয়। এখানে নির্দিষ্ট কোনো জিন বা জেনোম সেগমেন্ট সার্চ করে সাথে সাথে সেটির ভ্যারিয়েশন, কনজারভেশন, এক্সপ্রেশন এবং রেফারেন্স তথ্য দেখা যায়।
DDBJ (DNA Data Bank of Japan)
জাপানে অবস্থিত এই ডেটাবেসটি আন্তর্জাতিক DNA ডেটাবেস নেটওয়ার্কের অংশ যা GenBank (USA) এবং EMBL (Europe)-এর সঙ্গে সমন্বিতভাবে কাজ করে।
1000 Genomes Project
বিভিন্ন জনগোষ্ঠীর হাজারো মানুষের জেনোম সিকোয়েন্স পাওয়া যায়। এটি ব্যবহার করে রোগ ও জেনেটিক ভ্যারিয়েশনের সম্পর্ক, পপুলেশন জেনেটিক্স এবং পার্সোনালাইজড মেডিসিনের মতো ক্ষেত্রে গবেষণা করা যায়।
প্রোটিওমিক্স (Proteomics) ডেটাবেস
UniProt
এটি প্রোটিন সিকোয়েন্স ও ফাংশনের সবচেয়ে নির্ভরযোগ্য ডেটাবেস।
PDB (Protein Data Bank)
এই ডেটাবেসে প্রোটিন ও অন্যান্য বায়োমলিকিউলের ত্রি-মাত্রিক (3D) গঠন সংরক্ষিত থাকে।
Pfam
প্রোটিনের ডোমেইন ও ফাংশনাল ইউনিট বোঝার জন্য ব্যবহৃত হয়।
STRING
এই ডেটাবেস প্রোটিন-প্রোটিন ইন্টারঅ্যাকশন সম্পর্কিত তথ্য প্রদান করে এবং প্রোটিন নেটওয়ার্ক বিশ্লেষণে সহায়তা করে।
PRIDE (Proteomics Identifications Database)
এই রিপোজিটরিতে ম্যাস স্পেকট্রোমেট্রি-ভিত্তিক প্রোটিন শনাক্তকরণের ডেটা সংরক্ষণ করা হয়।
ট্রান্সক্রিপ্টোমিক্স (Transcriptomics) ডেটাবেস
GEO (Gene Expression Omnibus)
এখানে মূলত মাইক্রোঅ্যারে এবং RNA-seq ডেটা জমা থাকে। জিন এক্সপ্রেশন বিশ্লেষণে এটি সবচেয়ে বেশি ব্যবহৃত ডেটাবেসগুলোর একটি।
ArrayExpress (EBI)
জিন এক্সপ্রেশন ও ফাংশনাল জেনোমিক্স ডেটাসেট পাওয়া যায়।
SRA (Sequence Read Archive, NCBI)
হাই-থ্রুপুট সিকোয়েন্সিং ডেটা সংরক্ষিত থাকে। RNA-seq ডেটা বিশ্লেষণে ব্যবহৃত হয়।
Expression Atlas (EBI)
নির্দিষ্ট টিস্যু বা অবস্থায় কোন জিন কীভাবে প্রকাশিত হচ্ছে তার তথ্য পাওয়া যায়।
GTEx (Genotype-Tissue Expression Project)
এখানে মানুষের শরীরের নানা টিস্যুতে জিন এক্সপ্রেশনের বিস্তারিত প্রোফাইল সংরক্ষণ করা হয়।
জেনেটিক ভ্যারিয়েশন (Genetic Variation) ডেটাবেস
dbSNP (NCBI)
বিভিন্ন প্রজাতির SNP ও ছোট জেনেটিক ভ্যারিয়েশন সংরক্ষিত থাকে।
ClinVar
এই ডেটাবেসে জেনেটিক ভ্যারিয়েশন এবং সেই ভ্যারিয়েশনগুলোর সঙ্গে বিভিন্ন রোগের সম্পর্কিত তথ্য পাওয়া যায়।
gnomAD (Genome Aggregation Database)
এই ডেটাবেসে বিশ্বের বিভিন্ন জনগোষ্ঠীর জেনেটিক ভ্যারিয়েন্ট ফ্রিকোয়েন্সি বা হার বিশ্লেষণ করা যায়।
COSMIC (Catalogue of Somatic Mutations in Cancer)
ক্যান্সার সম্পর্কিত জেনোমিক ভ্যারিয়েশন ডেটা।
dbVar
এই ডেটাবেসে বড় ধরনের স্ট্রাকচারাল ভ্যারিয়েশন যেমন ডুপ্লিকেশন, ডিলিশন, ইনসার্শন এবং অন্যান্য পরিবর্তনের তথ্য পাওয়া যায়।
ক্যান্সার ডেটাবেস (Cancer Databases)
TCGA (The Cancer Genome Atlas)
এই ডেটাবেসে বিভিন্ন ধরনের ক্যান্সারের জেনোমিক ও ক্লিনিকাল ডেটাসেট সংরক্ষিত রয়েছে।
ICGC (International Cancer Genome Consortium)
এই ডেটাবেসে ক্যান্সারের জেনোমিক ভ্যারিয়েশন সম্পর্কিত আন্তর্জাতিক পর্যায়ের তথ্য পাওয়া যায়।
cBioPortal
এটি ক্যান্সার জেনোমিক্স ভিজ্যুয়ালাইজেশন ও বিশ্লেষণের জন্য একটি বহুল ব্যবহৃত অনলাইন রিসোর্স।
Oncomine
এটি একটি ক্যান্সার জিন এক্সপ্রেশন ডেটাবেস, যা তুলনামূলক বিশ্লেষণের জন্য ব্যবহার করা হয়।
COSMIC
এই ডেটাবেসে ক্যান্সারের সোমাটিক মিউটেশন সম্পর্কিত তথ্য সংরক্ষণ করা হয়।
মেটাবলোমিক্স (Metabolomics) ডেটাবেস
HMDB (Human Metabolome Database)
এই ডেটাবেসে মানুষের শরীরে বিদ্যমান সকল মেটাবোলাইট সম্পর্কিত বিস্তারিত তথ্য পাওয়া যায়।
MetaboLights (EBI)
এটি একটি পাবলিক রিপোজিটরি যেখানে বিভিন্ন মেটাবলোমিক্স পরীক্ষার ডেটা সংরক্ষিত থাকে।
KEGG Metabolomics
এই ডেটাবেসে বিভিন্ন মেটাবলিক পথ এবং রাসায়নিক যৌগ সম্পর্কিত তথ্য সংগৃহীত আছে।
LipidMaps
এই ডেটাবেসে বিভিন্ন ধরনের লিপিডের গঠন, শ্রেণিবিন্যাস এবং কার্যকারিতা সম্পর্কিত তথ্য রাখা হয়েছে।
Reactome
মলিকিউলার পাথওয়ে ও জৈব রাসায়নিক প্রতিক্রিয়ার ডেটাবেস।
স্বাস্থ্য ও বায়োমেডিকেল ডেটা
UK Biobank
যুক্তরাজ্যের এই ডেটাবেসে প্রায় পাঁচ লক্ষ মানুষের স্বাস্থ্য, জীবনধারা এবং জেনেটিক তথ্য সংরক্ষিত আছে।
DHS Program
ডেমোগ্রাফিক ও হেলথ সার্ভে প্রোগ্রামের মাধ্যমে বিভিন্ন দেশের জনসংখ্যা, স্বাস্থ্য এবং পুষ্টি সংক্রান্ত বিস্তারিত ডেটা সংগ্রহ করা হয়।
World Values Survey (WVS)
বিশ্বব্যাপী সামাজিক, সাংস্কৃতিক ও রাজনৈতিক মানদণ্ড বোঝার জন্য মানুষের দৃষ্টিভঙ্গি নিয়ে করা আন্তর্জাতিক সমীক্ষার তথ্য এই ডেটাবেসে পাওয়া যায়।
Global Health Data Exchange (GHDx)
স্বাস্থ্য, জনসংখ্যা এবং পরিবেশ সম্পর্কিত বিভিন্ন বৈশ্বিক ডেটাসেট একত্রে এই ক্যাটালগে রাখা হয়েছে।
MICS (UNICEF)
শিশু ও নারীর স্বাস্থ্য, শিক্ষা এবং উন্নয়ন সম্পর্কিত তথ্য সংগ্রহের জন্য ইউনিসেফ পরিচালিত এই সমীক্ষার ডেটা ব্যবহার করা হয়।
উদ্ভিদ সম্পর্কিত ডেটাবেস (Plant Databases)
TAIR (The Arabidopsis Information Resource)
এই ডেটাবেসে Arabidopsis উদ্ভিদের জেনোম ও জিন সম্পর্কিত বিস্তারিত তথ্য পাওয়া যায়।
Gramene
এই ডেটাবেসে চালসহ বিভিন্ন শস্য ফসলের জেনোমিক তথ্য সংরক্ষিত থাকে।
PlantGDB
এই ডেটাবেসে নানা প্রজাতির উদ্ভিদের জেনোমিক তথ্য পাওয়া যায়।
Phytozome
এই ডেটাবেসে উদ্ভিদের জেনোম সংরক্ষণ করা হয় এবং তুলনামূলক জেনোমিক্স গবেষণার জন্য ব্যবহার করা যায়।
BAR (Bio-Analytic Resource for Plant Biology)
এই ডেটাবেসে উদ্ভিদের জিন এক্সপ্রেশন সম্পর্কিত তথ্য পাওয়া যায়।
ড্রাগ ডিসকভারি ও কেমিক্যাল ডেটাবেস (Drug Discovery and Chemical Databases)
ChEMBL (EBI)
এই ডেটাবেসে ড্রাগ-সদৃশ বিভিন্ন যৌগ এবং তাদের জৈবিক কার্যকারিতা সম্পর্কিত তথ্য সংরক্ষিত থাকে।
DrugBank
এই ডেটাবেসে ড্রাগ ও তাদের টার্গেট প্রোটিন সম্পর্কিত বিস্তারিত তথ্য পাওয়া যায়।
PubChem (NCBI)
এই ডেটাবেসে রাসায়নিক যৌগ এবং বায়োলজিক্যাল টেস্ট সম্পর্কিত তথ্য পাওয়া যায়।
BindingDB
এই ডেটাবেসে ড্রাগ ও টার্গেট প্রোটিনের মধ্যে বাইনডিং সম্পর্কিত তথ্য সংরক্ষিত থাকে।
মাইক্রোবায়োলজি ও ভাইরোলজি ডেটাবেস
ViPR (Virus Pathogen Resource)
এই ডেটাবেসে ভাইরাস সম্পর্কিত জেনোম, প্রোটিন ও ভ্যাকসিন সংক্রান্ত ডেটা পাওয়া যায়।
PATRIC
এটি একটি সমৃদ্ধ ডেটাবেস যেখানে ব্যাকটেরিয়ার জেনোম ও সংশ্লিষ্ট মেটাডেটা সংরক্ষিত আছে।
IMG/M (Integrated Microbial Genomes & Microbiomes)
এখানে মাইক্রোবিয়াল জেনোম ও মেটাজেনোমিক্স গবেষণার জন্য প্রয়োজনীয় তথ্য পাওয়া যায়।
MG-RAST
এটি একটি ফ্রি প্ল্যাটফর্ম যা মেটাজেনোমিক সিকোয়েন্স বিশ্লেষণের জন্য ব্যবহার করা হয়।
GISAID
এই ডেটাবেসে ইনফ্লুয়েঞ্জা ও SARS-CoV-2 (COVID-19) এর জেনোমিক তথ্য পাওয়া যায়।
স্ট্রাকচারাল বায়োলজি ও মলিকিউলার মডেলিং ডেটাবেস
CATH
এই ডেটাবেসে প্রোটিন স্ট্রাকচারের হায়ারারকিকাল শ্রেণিবিন্যাস প্রদান করা হয়েছে।
SCOP
এটি প্রোটিন স্ট্রাকচারের তুলনামূলক বিশ্লেষণের জন্য একটি গুরুত্বপূর্ণ ডেটাবেস।
ModBase
এই ডেটাবেসে প্রোটিন স্ট্রাকচারের মডেলিং সম্পর্কিত তথ্য সংরক্ষিত আছে।
EMDB (Electron Microscopy Data Bank)
এখানে ইলেকট্রন মাইক্রোস্কোপি-ভিত্তিক প্রোটিন স্ট্রাকচারের ডেটা পাওয়া যায়।
SwissSidechain
এই ডেটাবেসে কেমিক্যাল ও মলিকিউলার মডেলিং সম্পর্কিত তথ্য পাওয়া যায়।
ক্লিনিকাল ও এপিডেমিওলজি ডেটাবেস
ClinicalTrials. gov
এই ডেটাবেসে বিশ্বের বিভিন্ন স্থানে পরিচালিত ক্লিনিকাল ট্রায়ালের বিস্তারিত তথ্য পাওয়া যায়।
WHO Clinical Trials Registry
বিশ্ব স্বাস্থ্য সংস্থার এই ডেটাবেসে বৈশ্বিক পর্যায়ে রেজিস্টার করা ক্লিনিকাল ট্রায়ালের তথ্য সংরক্ষিত থাকে।
SEER (Surveillance, Epidemiology, and End Results Program)
এটি যুক্তরাষ্ট্রের ক্যান্সার বিষয়ক এপিডেমিওলজি এবং জনস্বাস্থ্য সম্পর্কিত ডেটা সরবরাহ করে।
GHDx (Global Health Data Exchange)
এই ডেটাবেসে স্বাস্থ্য, জনসংখ্যা এবং উন্নয়ন সম্পর্কিত বিস্তৃত পরিসংখ্যান পাওয়া যায়।
BioLINCC (Biologic Specimen and Data Repository Information Coordinating Center)
এটি যুক্তরাষ্ট্রের NIH পরিচালিত একটি রিসোর্স, যেখানে ক্লিনিকাল ও বায়োলজিকাল গবেষণার ডেটা ও নমুনা সংরক্ষণ করা হয়।
আন্তর্জাতিক ও সরকারী ডেটা
United Nations Data (UNdata)
জাতিসংঘের সদস্য দেশগুলোর জনসংখ্যা, অর্থনীতি ও স্বাস্থ্যসহ নানা ক্ষেত্রের পরিসংখ্যান এখানে একত্রে পাওয়া যায়।
World Bank Open Data
বিশ্বব্যাংক প্রকাশিত এই open ডেটাসেটে বৈশ্বিক অর্থনীতি, সমাজ ও পরিবেশ সম্পর্কিত গুরুত্বপূর্ণ সূচক পাওয়া যায়।
FAO Data (FAOSTAT)
খাদ্য ও কৃষি সংস্থা (FAO) পরিচালিত এই ডেটাবেসে কৃষি, খাদ্য নিরাপত্তা এবং মৎস্যসম্পদ বিষয়ক তথ্য সংরক্ষিত আছে।
UNESCO Institute for Statistics
ইউনেস্কোর এই পরিসংখ্যানভাণ্ডারে শিক্ষা, বিজ্ঞান, সংস্কৃতি এবং প্রযুক্তি সম্পর্কিত বৈশ্বিক তথ্য পাওয়া যায়।
United Nations Comtrade
বিশ্বের সবচেয়ে বড় আন্তর্জাতিক বাণিজ্য পরিসংখ্যানভাণ্ডার এটি, যেখানে দেশভিত্তিক আমদানি ও রপ্তানি সম্পর্কিত বিস্তারিত তথ্য আছে।
U.S. Census Bureau
যুক্তরাষ্ট্র সরকারের এই সংস্থাটি জনসংখ্যা, অর্থনীতি ও সমাজ বিষয়ক তথ্য গবেষণার জন্য open করে থাকে।
WHO Global Health Observatory
বিশ্ব স্বাস্থ্য সংস্থার এই ডেটাবেসে রোগ, মৃত্যুহার এবং স্বাস্থ্য ব্যবস্থার বৈশ্বিক পরিসংখ্যান অন্তর্ভুক্ত রয়েছে।
OECD Data
অর্থনৈতিক সহযোগিতা ও উন্নয়ন সংস্থা (OECD) সদস্য দেশগুলোর অর্থনীতি, সমাজ এবং পরিবেশ সম্পর্কিত তথ্য এখানে সংরক্ষণ করে।
Eurostat
ইউরোপীয় ইউনিয়নের এই ডেটাবেসে অর্থনীতি, জনসংখ্যা ও পরিবেশ বিষয়ে বিস্তারিত পরিসংখ্যান প্রকাশ করা হয়।
IMF Data
আন্তর্জাতিক মুদ্রা তহবিল (IMF) অর্থনৈতিক প্রবৃদ্ধি, মুদ্রাস্ফীতি, বাণিজ্য ও আর্থিক সূচক সম্পর্কিত তথ্য এখানে সরবরাহ করে।
বিজ্ঞান ও পরিবেশ সম্পর্কিত ডেটাবেস
NASA Earthdata
এই ডেটাবেসে স্যাটেলাইট ইমেজ এবং পৃথিবী পর্যবেক্ষণ সম্পর্কিত বিভিন্ন ধরনের ডেটা পাওয়া যায়।
GBIF (Global Biodiversity Information Facility)
এটি একটি বৈশ্বিক জীববৈচিত্র্য ডেটাবেস যেখানে প্রাণী, উদ্ভিদ ও জীববৈচিত্র্য সম্পর্কিত তথ্য সংরক্ষিত রয়েছে।
NOAA NCEI
এই ডেটাবেসে মহাসাগর, বায়ুমণ্ডল এবং ভূতাত্ত্বিক তথ্য সংরক্ষিত থাকে যা পরিবেশ গবেষণায় ব্যবহৃত হয়।
Copernicus Open Access Hub
এখানে ইউরোপীয় সেন্টিনেল স্যাটেলাইট থেকে সংগৃহীত উন্মুক্ত ডেটা পাওয়া যায়।
re3data
এটি একটি বৈশ্বিক রেজিস্ট্রি যেখানে প্রায় সব ডিসিপ্লিনের গবেষণা ডেটাসেট খুঁজে পাওয়া যায়।
CERN Open Data
এখানে পার্টিকল ফিজিক্স পরীক্ষার ওপেন ডেটাসেট সংরক্ষিত থাকে যা সবার জন্য উন্মুক্ত।
IRIS Seismology Data
এই ডেটাবেসে বিশ্বব্যাপী ভূমিকম্প ও সিসমোলজি সম্পর্কিত তথ্য পাওয়া যায়।
WorldClim
এখানে জলবায়ু পরিবর্তন ও পরিবেশ গবেষণার জন্য প্রয়োজনীয় গ্লোবাল ক্লাইমেট ডেটা পাওয়া যায়।
PANGAEA
এই ডেটাবেসে পরিবেশ ও ভূবিজ্ঞান সম্পর্কিত গবেষণার ডেটা আর্কাইভ আকারে সংরক্ষিত আছে।
USGS Earth Explorer
এখানে যুক্তরাষ্ট্রের ভূতাত্ত্বিক জরিপ সংস্থার সংগ্রহ করা স্যাটেলাইট ইমেজ ও জিওস্পেশাল ডেটা পাওয়া যায়।
ESA Climate Change Initiative
এটি ইউরোপিয়ান স্পেস এজেন্সির জলবায়ু পরিবর্তন সম্পর্কিত ডেটাবেস।
OpenAQ
এই ডেটাবেসে বিশ্বব্যাপী বায়ুদূষণ ও বায়ুমানের ওপেন ডেটা পাওয়া যায়।
Global Forest Watch
এখানে বিশ্বের বনসম্পদ, বন উজাড় এবং পরিবেশগত পরিবর্তনের ডেটা সংরক্ষিত থাকে।
Aqueduct Water Risk Atlas (WRI)
এখানে পানি সংকট, পানির ব্যবহার ও ঝুঁকি সম্পর্কিত বৈশ্বিক ডেটা পাওয়া যায়।
জিওস্পেশাল ও রিমোট সেন্সিং ডেটাবেস
USGS Earth Explorer
এখানে বিভিন্ন স্যাটেলাইট ইমেজ ও জিওস্পেশাল ডেটা পাওয়া যায়।
Sentinel Hub (Copernicus)
এখানে ইউরোপীয় স্পেস এজেন্সির সরবরাহকৃত স্যাটেলাইট ডেটা পাওয়া যায়।
MODIS (NASA)
এই ডেটাবেসে বৈশ্বিক জলবায়ু, ভূমি আচ্ছাদন এবং পরিবেশ সম্পর্কিত তথ্য পাওয়া যায়।
Landsat Archive
দীর্ঘমেয়াদী স্যাটেলাইট পর্যবেক্ষণ ডেটা সংরক্ষিত রয়েছে।
OpenTopography
এই প্ল্যাটফর্মে ভূ-ভাগের উচ্চতা ও টেরেইন সম্পর্কিত ডেটা বিনামূল্যে পাওয়া যায়।
ইঞ্জিনিয়ারিং ও কম্পিউটার বিজ্ঞান ডেটাবেস
OpenML
এটি একটি সহযোগিতামূলক মেশিন লার্নিং ডেটাবেস যেখানে ডেটা, কোড এবং গবেষণার ফলাফল পাওয়া যায়।
AWS Open Data Registry
অ্যামাজন ওয়েব সার্ভিসেস কর্তৃক পরিচালিত এই প্ল্যাটফর্মে কম্পিউটার বিজ্ঞান, জিওস্পেশাল ও মেশিন লার্নিংসহ নানা ক্ষেত্রের বড় ডেটাসেট পাওয়া যায়।
Microsoft Research Open Data
এটি মাইক্রোসফট রিসার্চের তৈরি একটি ওপেন ডেটা প্ল্যাটফর্ম যেখানে কম্পিউটার ভিশন, প্রাকৃতিক ভাষা প্রক্রিয়াকরণ ও এআই গবেষণার ডেটাসেট পাওয়া যায়।
IEEE DataPort
এটি ইঞ্জিনিয়ারিং এবং কম্পিউটার বিজ্ঞানের জন্য একটি ওপেন ডেটা রিপোজিটরি।
Kaggle Datasets
এটি ডেটা সায়েন্স এবং মেশিন লার্নিংয়ের জন্য একটি কমিউনিটি-ভিত্তিক ডেটাসেট প্ল্যাটফর্ম।
Datahub.io
এটি একটি ওপেন ডেটা রিপোজিটরি যেখানে কম্পিউটিং, পরিসংখ্যান, অর্থনীতি ও সমাজবিজ্ঞানসহ বিভিন্ন বিষয়ের ডেটাসেট সংরক্ষিত আছে।
UCI Machine Learning Repository
এটি সবচেয়ে পুরনো এবং জনপ্রিয় মেশিন লার্নিং ডেটাবেস।
Google Dataset Search
গুগলের এই টুলটি ইন্টারনেটে ছড়িয়ে থাকা বিভিন্ন ডেটাসেট খুঁজে পেতে সাহায্য করে।
Stanford Large Network Dataset Collection (SNAP)
স্ট্যানফোর্ড বিশ্ববিদ্যালয় পরিচালিত এই ডেটাবেসে বিভিন্ন ধরনের নেটওয়ার্ক ও গ্রাফ সম্পর্কিত ডেটাসেট সংরক্ষিত আছে।
সমাজবিজ্ঞান ও পরিসংখ্যান বিষয়ক ডেটাবেস
World Values Survey (WVS)
এখানে মানুষের সামাজিক, সাংস্কৃতিক, ধর্মীয় ও রাজনৈতিক মানদণ্ড সম্পর্কিত তথ্য সংগ্রহ করা হয়।
Pew Research Center Data
এখানে সামাজিক প্রবণতা, ধর্ম, রাজনীতি, প্রযুক্তি ও জনমতের নির্ভরযোগ্য তথ্য পাওয়া যায়।
UK Data Service
যুক্তরাজ্যের জনসংখ্যা, আয়, শিক্ষা, স্বাস্থ্য ও সমাজ সম্পর্কিত নানা তথ্য পাওয়া যায়।
ICPSR (Inter-university Consortium for Political and Social Research)
এটি সমাজবিজ্ঞান গবেষণার জন্য বিশ্বের সবচেয়ে বড় ডেটা আর্কাইভ। এখানে রাজনৈতিক, অর্থনৈতিক ও সামাজিক গবেষণার অসংখ্য তথ্য সংরক্ষিত আছে।
OpenICPSR
এখানে সামাজিক ও আচরণমূলক গবেষণার ডেটাসেট বিনামূল্যে পাওয়া যায়।
Eurobarometer
এটি ইউরোপীয় কমিশনের একটি জনমত সমীক্ষা ডেটাবেস।
Gapminder Data
এখানে বিশ্বব্যাপী উন্নয়নের সূচক যেমন স্বাস্থ্য, আয়, শিক্ষা, জীবনমান ও সামাজিক বৈষম্য সম্পর্কিত তথ্য সংরক্ষিত থাকে।
IPUMS (Integrated Public Use Microdata Series)
এটি বিশ্বের বিভিন্ন দেশের জনগণনা ও সমীক্ষার মাইক্রোডেটা সরবরাহ করে