Zde jsou hrubé kroky, které byste dodrželi při realizaci tohoto projektu:
- Stáhněte si přepis videa nebo podcastu a načtěte do dokumentů
- Rozdělte dlouhé dokumenty na kousky
- Shrňte přepis pomocí LLM
- Volitelné: zabalte to vše do uživatelsky přívětivého rozhraní příkazového řádku nebo dokonce do webové aplikace.
Myšlenka Projektu 4: Extrakce Informací
Dalším užitečným případem použití LLM je extrakce informací. Můžete například poskytnout LLM s několika příklady, které obsahují text a informace, které chcete extrahovat.
Vzpomeňte si na generátor průvodních dopisů z dřívějška? Můžete jej rozšířit o komponentu a přímo extrahovat příslušné informace z nabídky práce:
prompt = """
This program will extract relevant information from a job posting.
Here are some examples:Job posting:
Lead engineer for software integration (remote possible)
At XYZ Co. we are making the world a better place.
To do so we are looking for a lead engineer with experience in Python and JIRA.
Extracted Text:
Role: Lead engieer for software integration.
Company: XYZ Co.
Requirements: Python, JIRA
--
Job posting:
Senior software engineer - Autonomous Mobility
ABC Inc. is a great company.
We are looking for someone with great ability to write complex C code.
Extracted Text:
"""
Zde jsou hrubé kroky, které byste dodrželi při realizaci tohoto projektu:
- Načíst popis úlohy z nabídky práce do dokumentu
- Extrahujte příslušné informace pomocí LLM pomocí prompt engineering a prompt pomocí příkladů
Nápad Projektu 5: Webová Škrabka
LLM jsou výjimečné na přepisování (transformace) textů, jako jsou
- přepis textu v určitém stylu (např. styl “The Economist” nebo “New Yorker”)
- přepis textu v určité úrovni čtení (např. úroveň 6 pro snadnější čitelnost)
- přeformátování informací z libovolného formátu do jiného formátu
- oprava textu (např. pravopis a gramatika)
- překlad
Je velmi běžné používat LLM k převodu textu z jednoho formuláře do druhého.
Kreativní nápad použít tuto schopnost přepisování je použít pro web škrábání. Pokud jste někdy napsali webovou škrabku, víte, jak je to únavné. Co kdybyste mohli použít LLM k vytvoření obecnějšího řešení pro extrahování dat z nestrukturovaných webových stránek?
To je přesně to, co mangotree udělal:
Zde jsou hrubé kroky, které byste dodrželi při realizaci tohoto projektu:
- Seškrábněte zdrojový kód webu a načtěte jej do dokumentu
- Rozdělte dlouhé dokumenty na kousky
- Extrahujte příslušná data ze zdrojového kódu pomocí LLM (viz extrakce)
- Přeformátujte extrahovaná data do požadovaného formátu pomocí LLM pomocí prompt engineering a prompt pomocí příkladů
Dosavadní nápady projektu byly založeny na myšlence generování nového textu. Ale další případ použití LLM je založen na myšlence textových reprezentací. Můžete zadat text do modelu embeddings a extrahovat numerickou reprezentaci tohoto textu – “vkládání textu”.
Tyto vkládání textu vám umožňují provádět matematické operace, včetně výpočtů podobnosti, nebo používat algoritmy strojového učení.
V této části probereme některé nápady projektu na základě případů použití, které s nimi souvisejí:
- Vyhledávání a podobnost: Prohledávatelná databáze vašich dokumentů
- Odpověď na otázky: odpověď na otázky přes dokumenty nebo kódovou základnu
- Clustering: seskupování příspěvků na sociálních médiích a epizod podcastů do témat
- Klasifikace: klasifikujte obchodní dotazy z e-mailů
Idea projektu 6: Prohledávatelná databáze vašich dokumentů
Vkládání nám může pomoci hledat obsah na základě podobnost. Na rozdíl od vyhledávačů založených na klíčových slovech můžeme vypočítat podobnost vložení dokumentu s vložením vyhledávacího dotazu.
Můžete například změnit své osobní dokumenty na prohledávatelnou databázi:
Dalším úhledným projektem je víkendový hack Andreje Karpathyho, který vám umožní vyhledat konkrétní film:
Zde jsou hrubé kroky, které byste dodrželi při realizaci takového projektu:
- Načtěte soubory do dokumentů
- Rozdělte dlouhé dokumenty na kousky
- Generování a ukládání vkládání z dokumentů pomocí modelu vkládání
- Definujte indexový dotaz pro načtení příslušných souborů
Myšlenka projektu 7: Odpovědi na otázky nad dokumenty
Odpověď na otázku lze zobrazit jako kombinaci vyhledávání (viz vyhledávání) a shrnutí (viz sumarizace). Může pomoci pracovat s jakýmkoli dokumentem intuitivnějším způsobem.
Můžete jej použít k Chatujte se svými dokumenty nebo libovolná kódová základna:
Zde jsou hrubé kroky, které byste dodrželi při realizaci tohoto projektu:
- Načtení zdrojového kódu do dokumentů
- Rozdělte dlouhé dokumenty na kousky
- Generování a ukládání vkládání z dokumentů pomocí modelu vkládání
- Definujte indexový dotaz pro načtení kontextu a vyzvěte LLM na něm
Myšlenka projektu 8: seskupování dokumentů do témat
Kromě dotazování na dokumenty nebo informace z uvedených dokumentů můžete také použít vložení k zařazení dokumentů do kategorií pomocí cluster (učení bez dozoru).
Můžete například použít shlukování k nalezení témat v epizodě podcastu.
Nebo můžete seskupte příspěvky na online fóru do témat.