KI-Kanon | Shenzhen BoldVenture Solutions Inc.

Die Forschung im Bereich der künstlichen Intelligenz nimmt exponentiell zu. Für KI-Experten ist es schwierig, mit allen neuen Veröffentlichungen Schritt zu halten, und für Anfänger ist es noch schwieriger zu wissen, wo sie anfangen sollen.

Deshalb teilen wir in diesem Beitrag eine kuratierte Liste von Ressourcen, auf die wir uns verlassen haben, um mehr über moderne KI zu erfahren. Wir nennen es den „KI-Kanon“, weil diese Artikel, Blogbeiträge, Kurse und Leitfäden in den letzten Jahren einen übergroßen Einfluss auf das Fachgebiet hatten.

Wir beginnen mit einer sanften Einführung in Transformator- und latente Diffusionsmodelle, die die aktuelle KI-Welle antreiben. Als nächstes befassen wir uns eingehend mit technischen Lernressourcen. praktische Leitfäden zum Erstellen mit großen Sprachmodellen (LLMs); und Analyse des KI-Marktes. Abschließend fügen wir eine Referenzliste wegweisender Forschungsergebnisse hinzu, beginnend mit „Attention is All You Need“ – dem Artikel von Google aus dem Jahr 2017, der die Welt mit Transformationsmodellen bekannt machte und das Zeitalter der generativen KI einläutete.

Diese Artikel erfordern keine speziellen Vorkenntnisse und können Ihnen helfen, sich schnell mit den wichtigsten Teilen der modernen KI-Welle vertraut zu machen.

Diese Ressourcen bieten ein grundlegendes Verständnis der grundlegenden Ideen des maschinellen Lernens und der KI, von den Grundlagen des Deep Learning bis hin zu Kursen auf Universitätsniveau von KI-Experten.

Es gibt unzählige Ressourcen – einige besser als andere –, die versuchen zu erklären, wie LLMs funktionieren. Hier sind einige unserer Favoriten, die sich an ein breites Spektrum an Lesern/Zuschauern richten.

Es entsteht ein neuer Anwendungsstapel mit LLMs als Kernstück. Obwohl es zu diesem Thema noch nicht viele formelle Bildungsangebote gibt, haben wir einige der nützlichsten Ressourcen zusammengestellt, die wir gefunden haben.

Wir alle haben uns gefragt, was generative KI bewirken kann, aber es gibt immer noch viele Fragen dazu, was das alles bedeutet. Welche Produkte und Unternehmen werden überleben und gedeihen? Was passiert mit Künstlern? Wie sollten Unternehmen es nutzen? Wie wird es sich im wahrsten Sinne des Wortes auf Arbeitsplätze und die Gesellschaft insgesamt auswirken? Hier sind einige Versuche, diese Fragen zu beantworten.

Die meisten der erstaunlichen KI-Produkte, die wir heute sehen, sind das Ergebnis nicht minder erstaunlicher Forschung, die von Experten in großen Unternehmen und führenden Universitäten durchgeführt wurde. In letzter Zeit haben wir auch beeindruckende Arbeiten von Einzelpersonen und der Open-Source-Community gesehen, die beliebte Projekte in neue Richtungen lenken, beispielsweise durch die Erstellung automatisierter Agenten oder die Portierung von Modellen auf kleinere Hardware-Footprints.

Hier ist eine Sammlung vieler dieser Artikel und Projekte für Leute, die wirklich tief in die generative KI eintauchen möchten. (Für Forschungsarbeiten und Projekte haben wir, sofern verfügbar, auch Links zu den begleitenden Blog-Beiträgen oder Websites eingefügt, die tendenziell die Dinge auf einem höheren Niveau erklären. Und wir haben die ursprünglichen Veröffentlichungsjahre angegeben, damit Sie die Grundlagenforschung im Laufe der Zeit verfolgen können .)

Neue Modelle

Modellverbesserungen (z. B. Feinabstimmung, Abruf, Aufmerksamkeit)

Codegenerierung

Videogenerierung

Humanbiologische und medizinische Daten

Audioerzeugung

Mehrdimensionale Bilderzeugung

Besonderer Dank geht an Jack Soslow, Jay Rughani, Marco Mascorro, Martin Casado, Rajko Radovanovic und Vijay Pande für ihre Beiträge zu diesem Artikel sowie an das gesamte a16z-Team für eine stets informative Diskussion über die neuesten Entwicklungen in der KI. Und vielen Dank an Sonal Chokshi und das Krypto-Team für den Aufbau einer langen Reihe von Kanonen im Unternehmen.

* * *

Die hier geäußerten Ansichten sind die der einzelnen zitierten Mitarbeiter von AH Capital Management, LLC („a16z“) und nicht die Ansichten von a16z oder seinen verbundenen Unternehmen. Bestimmte hierin enthaltene Informationen stammen aus Drittquellen, unter anderem von Portfoliounternehmen der von a16z verwalteten Fonds. Obwohl a16z aus Quellen stammt, die als zuverlässig erachtet werden, hat a16z diese Informationen nicht unabhängig überprüft und gibt keine Zusicherungen über die dauerhafte Richtigkeit der Informationen oder ihre Angemessenheit für eine bestimmte Situation ab. Darüber hinaus können diese Inhalte Werbung Dritter enthalten; a16z hat solche Anzeigen nicht überprüft und unterstützt die darin enthaltenen Werbeinhalte nicht.

Dieser Inhalt dient nur zu Informationszwecken und sollte nicht als Rechts-, Geschäfts-, Anlage- oder Steuerberatung herangezogen werden. Sie sollten in diesen Angelegenheiten Ihre eigenen Berater konsultieren. Verweise auf Wertpapiere oder digitale Vermögenswerte dienen nur der Veranschaulichung und stellen keine Anlageempfehlung oder ein Angebot zur Erbringung von Anlageberatungsdienstleistungen dar. Darüber hinaus richtet sich dieser Inhalt nicht an Anleger oder potenzielle Anleger und ist auch nicht für deren Nutzung bestimmt. Daher darf er unter keinen Umständen als Grundlage für die Entscheidung über eine Investition in einen von a16z verwalteten Fonds herangezogen werden. (Ein Angebot zur Investition in einen a16z-Fonds erfolgt nur durch das Privatplatzierungsmemorandum, die Zeichnungsvereinbarung und andere relevante Unterlagen eines solchen Fonds und sollte vollständig gelesen werden.) Alle erwähnten, erwähnten oder erwähnten Investitionen oder Portfoliounternehmen Die beschriebenen Investitionen sind nicht repräsentativ für alle von a16z verwalteten Investitionen in Fahrzeuge, und es kann nicht garantiert werden, dass die Investitionen rentabel sind oder dass andere in der Zukunft getätigte Investitionen ähnliche Eigenschaften oder Ergebnisse haben. Eine Liste der Investitionen der von Andreessen Horowitz verwalteten Fonds (ausgenommen Investitionen, für die der Emittent a16z keine Erlaubnis zur öffentlichen Offenlegung erteilt hat, sowie unangekündigte Investitionen in öffentlich gehandelte digitale Vermögenswerte) ist unter https://a16z.com/investments verfügbar /.

Die darin bereitgestellten Diagramme und Grafiken dienen ausschließlich Informationszwecken und sollten bei Anlageentscheidungen nicht als Grundlage herangezogen werden. Die Wertentwicklung in der Vergangenheit lässt keinen Rückschluss auf zukünftige Ergebnisse zu. Der Inhalt gilt nur zum angegebenen Datum. Alle in diesen Materialien zum Ausdruck gebrachten Prognosen, Schätzungen, Prognosen, Ziele, Aussichten und/oder Meinungen können ohne Vorankündigung geändert werden und können von den Meinungen anderer abweichen oder ihnen widersprechen. Weitere wichtige Informationen finden Sie unter https://a16z.com/disclosures.

Inhaltsverzeichnis Software 2.0 Stand von GPT Was macht ChatGPT … und warum funktioniert es? Transformatoren, erklärt, wie stabile Diffusion funktioniert Deep Learning auf den Punkt gebracht: Kernkonzepte Praktisches Deep Learning für Programmierer Word2vec erklärt Ja, Sie sollten Backprop verstehen Stanford CS229 Stanford CS224N Der illustrierte Transformator Der kommentierte Transformator Lassen Sie uns GPT erstellen: von Grund auf, im Code, buchstabiert illustriert Stabile Verbreitung: RLHF: Verstärkungslernen aus menschlichem Feedback Verstärkungslernen aus menschlichem Feedback Stanford CS25 Stanford CS324 Prädiktives Lernen, NIPS 2016 KI für vollautomatisches Fahren bei Tesla Die Skalierungshypothese Chinchillas wilde Implikationen Eine Untersuchung großer Sprachmodelle Funken künstlicher allgemeiner Intelligenz : Frühe Experimente mit GPT-4 Die KI-Revolution: Wie Auto-GPT eine neue Ära der Automatisierung und Kreativität einleitet Der Waluigi-Effekt Erstellen Sie einen GitHub-Support-Bot mit GPT3, LangChain und Python Erstellen Sie LLM-Anwendungen für die Produktion Prompt Engineering Guide Prompt-Injection: Was ist das Schlimmste, was passieren kann? OpenAI-Kochbuch Pinecone-Lernzentrum LangChain-Dokumente LLM Bootcamp Hugging Face Transformers Chatbot Arena Open LLM Leaderboard Wem gehört die generative KI-Plattform? Die hohen Kosten für KI-Rechner bewältigen Kunst ist nicht tot, sie wird nur maschinengeneriert Die generative KI-Revolution in Spielen Ist für generative B2B-KI-Apps weniger mehr? Finanzdienstleistungen werden generative KI schneller annehmen, als Sie denken. Generative KI: Die nächste Verbraucherplattform. Um einen echten Unterschied im Gesundheitswesen zu bewirken, muss KI so lernen wie wir. Die neue industrielle Revolution: Bio x KI. Über die Chancen und Risiken von Stiftungsmodellen State of AI Report GPTs sind GPTs: Ein früher Blick auf das Arbeitsmarktwirkungspotenzial großer Sprachmodelle Deep Medicine: Wie künstliche Intelligenz das Gesundheitswesen wieder menschlich machen kann Große Sprachmodelle Aufmerksamkeit ist alles, was Sie brauchen BERT: Vortraining tiefer bidirektionaler Transformatoren für Sprachverständnis Verbesserung des Sprachverständnisses durch generatives Vortraining. Sprachmodelle sind wenige Lernende. Sprachmodelle trainieren, um Anweisungen mit menschlichem Feedback zu befolgen. LaMDA: Sprachmodelle für Dialoganwendungen. PaLM: Skalierende Sprachmodellierung mit Pfaden. OPT: Training für offene vorab trainierte Transformer-Sprachmodelle Berechnungsoptimale große Sprachmodelle GPT-4 Technischer Bericht LLaMA: Offene und effiziente Basissprachmodelle Alpaka: Ein starkes, replizierbares Modell zur Befehlsfolge Modellverbesserungen (z. B. Feinabstimmung, Abruf, Aufmerksamkeit) Tiefgreifendes Verstärkungslernen aus menschlichen Präferenzen Abruferweitert Generierung für wissensintensive NLP-Aufgaben. Verbesserung von Sprachmodellen durch Abrufen von Billionen von Tokens. LoRA: Low-Rank-Adaption großer Sprachmodelle. Constitutional AI (2022). FlashAttention: Schnelle und speichereffiziente exakte Aufmerksamkeit mit IO-Bewusstsein. Hungrige, hungrige Flusspferde: Auf dem Weg zur Sprache Modellierung mit Zustandsraummodellen Bilderzeugungsmodelle Lernen übertragbarer visueller Modelle aus der Überwachung natürlicher Sprache Zero-Shot-Text-zu-Bild-Generierung Hochauflösende Bildsynthese mit latenten Diffusionsmodellen Fotorealistische Text-zu-Bild-Diffusionsmodelle mit tiefem Sprachverständnis DreamBooth: Feinabstimmung Text-zu-Bild-Diffusionsmodelle für subjektgesteuerte Generierung Hinzufügen bedingter Kontrolle zu Text-zu-Bild-Diffusionsmodellen Agenten Ein Weg zur autonomen maschinellen Intelligenz ReAct: Synergie von Denken und Handeln in Sprachmodellen Generative Agenten: Interaktive Simulationen menschlichen Verhaltens Reflexion: an Autonomer Agent mit dynamischem Gedächtnis und Selbstreflexion Toolformer: Sprachmodelle können sich selbst beibringen, Werkzeuge zu verwenden Auto-GPT: Ein autonomes GPT-4-Experiment BabyAGI Andere Datenmodalitäten Codegenerierung Bewertung großer Sprachmodelle, die auf Code trainiert wurden Codegenerierung auf Wettbewerbsebene mit AlphaCode CodeGen : Ein offenes großes Sprachmodell für Code mit Multiturn-Programmsynthese. Videogenerierung. Make-A-Video: Text-zu-Video-Generierung ohne Text-Video-Daten. Imagen Video: Hochauflösende Videogenerierung mit Diffusionsmodellen. Humanbiologie und medizinische Daten. Strategien für Graphische neuronale Netze vor dem Training. Verbesserte Proteinstrukturvorhersage mithilfe von Potenzialen aus Deep Learning. Große Sprachmodelle kodieren klinisches Wissen. Audiogenerierung Jukebox: Ein generatives Modell für Musik. AudioLM: ein Sprachmodellierungsansatz für die Audiogenerierung. MusicLM: Generieren von Musik aus Text. Mehrdimensionale Bildgenerierung NeRF: Darstellung von Szenen als neuronale Strahlungsfelder für die Ansichtssynthese. DreamFusion: Text-zu-3D mithilfe von 2D-Diffusion