The field of genetic epidemiology has taken great leaps in the last few decades driven by developments in sequencing technologies, digitalization of health data, evolution of statistical methods, abundance of computational resources, and emergence of large research data infrastructures. This thesis describes three approaches of utilizing novel large data resources and modern methods of genetic epidemiology in understanding human disease, and further outlines general principles behind translation of such findings towards clinical practice. First, we explore how longitudinal secondary health data together with data-driven statistical learning methods can be utilized to develop health metrics for public health surveillance. We construct a novel healthy aging score from 21 years of medication purchase and mortality data, validate it in two external cohorts, and show that the new score complements Charlson Comorbidity Index, associates with genomic risks of late-onset diseases, and has a reasonable accuracy in predicting all-cause mortality out-of-sample. Second, we investigate how polygenic risk score of migraine, a computational biomarker of genome-wide common variant burden, relates to the official ICHD-3 migraine diagnosis criteria in a deeply phenotyped large migraine database. We find that the disease complexity correlates consistently with increasing polygenic risk and then rank diagnostic criteria by strength of their association. Our results bring clinical depth to the opaque basic research biomarker that combines the effect of numerous genetic variants into a single value. Third, we use multiple large data resources to identify a Finnish-enriched missense risk variant for idiopathic pulmonary fibrosis, to explore its pleiotropic link to common cancers, and to inform on its possible biological mechanisms. Results provide a hypothesis of a link related to cellular senescence and mitotic checkpoint signaling, a potential target for further therapeutic investigations. This study exemplifies the many benefits of novel genomic data resources on identifying and exploring novel potential therapeutic targets. All results contribute to their respective research domains and together demonstrate different ways in which large research data infrastructures and methods of modern genetic epidemiology can provide novel insights and potential new applications to health care. Bringing these visions to reality would require further wide translational efforts of multidisciplinary nature. Geneettisen epidemiologian tutkimus on edennyt suurin harppauksin viime vuosikymmeninä. Uuden polven sekvensointiteknologiat, terveystiedon digitalisoituminen, tilastollisten metodien kehitys, laskentakapasiteetin lähes rajaton saatavuus ja suurten tutkimusinfrastruktuurien synty ovat olleet tämän kehityksen kulmakiviä. Tässä väitöskirjassa tarkastellaan kolmea tapaa hyödyntää uusia suuria data-aineistoja ja moderneja menetelmiä sairauksien ymmärtämiseksi sekä kuvataan yleisiä periaatteita, joilla löydöksiä voitaisiin viedä eteenpäin kohti kliinistä hyödyntämistä. Ensin tutkimme, kuinka terveydenhuollossa kertynyttä tietoa voitaisiin toisiohyödyntää oppivien tilastollisten menetelmien avulla kansanterveydellisten seurantatyökalujen kehittämiseen. Tutkimuksessa yhdistetään lääkeosto- ja kuolleisuustietoa 21 vuoden ajalta uudenlaiseksi terveellisen ikääntymisen mittariksi. Mittari validoidaan kahdessa ulkopuolisessa tutkimusaineistossa ja osoitetaan, että se täydentää perinteistä riskityökalua (Charlson Comorbidity Index), assosioituu myöhäisiän sairauksien geneettiseen riskiin ja ennustaa kuolleisuutta otoksen ulkopuolella. Toiseksi tarkastelemme, kuinka migreenin geneettinen riskipisteytys, joka kuvaa yleisten varianttien rasitetta genominlaajuisesti, heijastuu vakiintuneeseen ICHD-3-diagnoosikriteeristöön laajassa ja yksityiskohtaisessa migreeniaineistossa. Osoitamme, että migreenin oirekuvan voimakkuus korreloi korkeamman polygeenisen riskin kanssa ja kuvaamme kuinka diagnoosikriteerit keskenään järjestyvät suhteessa kasvavaan riskiin. Tulokset tuovat kliinisesti syvempää tartuntapintaa uuteen perustutkimukselliseen biomarkkeriin, joka yhdistää lukemattomien geneettisten tekijöiden yhteisvaikutuksen yhteen numeriseen arvoon. Kolmannessa osatyössä tunnistetaan Suomeen rikastunut idiopaattiselle keuhkofibroosille altistava missense-variantti, kuvataan sen pleiotropiaa yleisiin syöpiin sekä etsitään selityksiä ilmiön mahdolliselle mekanismille laajojen data-aineistojen avulla. Tutkimuksessa luodaan hypoteesi geenivariantin yhteydestä solusenesenssiin ja mitoottiseen tarkastuspisteeseen, jotka voisivat toimia mahdollisina tulevaisuuden terapioiden jatkotutkimuksen lähtökohtina. Työ kuvaa monelta kantilta niitä hyötyjä, joita uudenlaiset laajat tietoaineistot voivat tuoda lääkeaihioiden etsimiseen ja terapioiden monisyiseen alkuvaiheen tutkimiseen. Kukin osatöistä tuo uutta tietoa omalle tutkimusalueelleen ja tulokset yhdessä havainnollistavat, kuinka suuret tutkimusinfrastruktuurit laajoine data-aineistoineen sekä moderni geneettinen epidemiologia voivat luoda uusia näkökulmia ja potentiaalisia tulevaisuuden sovelluksia terveydenhuoltoon. Näiden visioiden jatkotranslaatio ja tuominen käytäntöön vaatisi laajaa monitieteellistä jatkotutkimusta.