KI-Trends: Februar

6 min

March 1, 2023

‍Künstliche Intelligenz (KI) hat in den letzten Jahren beeindruckende Fortschritte gemacht. Im Februar 2023 wurden bemerkenswerte Fortschritte bei generativen Modellen angekündigt, mit denen Musik, Text und Videos erstellt, Sprache in Code konvertiert und Bilder bearbeitet werden können. In diesem Artikel werden einige der bemerkenswertesten Errungenschaften im Bereich KI vorgestellt, die in letzter Zeit angekündigt wurden.

Marc Funk

Sprachmodelle

Auf dem Gebiet der Sprachmodelle haben Microsoft-Forscher vorgestellt BioGPT, ein generatives, vortrainiertes Transformatormodell, das in der biomedizinischen Literatur trainiert wurde das andere wissenschaftliche LLMs auf Augenhöhe mit der Leistung menschlicher Experten übertrifft, und OpenAI hat eine eingeführt webbasiertes Tool zur Unterscheidung zwischen KI-generierten und von Menschen geschriebenen Texten um Plagiate und schädliche Kampagnen in großem Maßstab zu bekämpfen. Salesforce-Forscher und Forscher der UCSF und Berkeley haben vorgestellt ProGen, ein LLM, das in der Lage ist, funktionelle Proteinsequenzen zu erzeugen. Salesforce Research hat auch präsentiert BLIP-2, ein hochmodernes Vision-to-Language-Modell, das eine Zero-shot-Bild-zu-Text-Generierung und VQA ermöglicht.

Konversations-KI

Im schnell wachsenden Bereich der Konversations-KI gibt es mehrere spannende Entwicklungen, die es im Auge zu behalten gilt. Zum Beispiel hat Google kürzlich einen neuen Konkurrenten von ChatGPT getestet, der heißt Auszubildender Barde. Im Gegensatz zu ChatGPT Apprentice Bard wird von Googles LLM LamDa unterstützt und kennt die jüngsten Ereignisse, was ihm in bestimmten Kontexten einen Vorteil verschaffen könnte.

In der Zwischenzeit haben Microsoft-Forscher eingeführt FLAMME, ein Formelsprachenmodell für Excel. Dieses leistungsstarke Tool ist in der Lage, die Syntax von Formeln zu reparieren, automatisch zu vervollständigen und zu rekonstruieren, was Benutzern viel Zeit und Mühe ersparen könnte.

Meta hat sein neues großes Sprachmodell namens veröffentlicht LLama, das Forschern helfen soll, auf dem Gebiet der KI voranzukommen. LLama ist ein hochmodernes Modell, das in verschiedenen Größen (Parameter 7B, 13B, 33B und 65B) erhältlich ist und vielseitig einsetzbar ist, sodass es für viele verschiedene Anwendungsfälle geeignet ist. Durch die gemeinsame Nutzung des Codes für LLama können andere Forscher auf einfache Weise neue Ansätze zur Beseitigung von Problemen wie Vorurteilen, Toxizität und Halluzinationen in großen Sprachmodellen testen. Meta veröffentlicht das Modell unter einer nichtkommerziellen, forschungsorientierten Lizenz und gewährt akademischen Forschern, staatlichen und zivilgesellschaftlichen Organisationen sowie Forschungslabors der Industrie auf der ganzen Welt von Fall zu Fall Zugang.

Microsoft hat kürzlich die Veröffentlichung eines neuen angekündigt ChatGPT-gestützte Bing-Suchmaschine. Mehr darüber kannst du hier nachlesen Blogbeitrag.

Endlich Google hat eingeführt Barde, eine experimentelle Konversations-KI, die Teil von Search ist. Bard wird von Googles LLM LamDA unterstützt und hat das Potenzial, die Art und Weise, wie wir mit Suchmaschinen und anderen Online-Tools interagieren, zu revolutionieren.

Bild- und Videogenerierung

Auf dem Gebiet der Bild- und Videogenerierung haben Meta-Forscher vorgeschlagen HEBEL, ein hochmoderner Ansatz, der verbessert die Generierung von Sprache zu Code indem Sie lernen, die generierten Programme mit ihren Ausführungsergebnissen zu verifizieren.

Forscher von Meta AI und der University of British Columbia haben vorgestellt MINOTAURUS, ein einheitliches Multitask-Modell für abfragebasiertes Videoverständnis.

Google und die Hebrew University of Jerusalem haben veröffentlicht Dreamix, eine neue Methode zur Videogenerierung und -bearbeitung.

CarperAI hat ein neues Diffusionsmodell veröffentlicht in der Lage, Codeänderungen mit Commit-Nachrichten zu generieren.

Runway hat ein neues Modell vorgestellt, das verwendet Sprache und Bilder zur Generierung neuer Videos.

Forscher von CMU und Adobe haben vorgeschlagen pix2pix-null, eine neue Bild-zu-Bild-Übersetzungsmethode das übertrifft bestehende Modelle für die reale und synthetische Bildbearbeitung.

Alibaba-Forscher haben vorgestellt Komponist, ein Paradigma der neuen Generation, das eine flexible Steuerung des Ausgabebildes ermöglicht, wie räumliches Layout und Farbpalette.

Forscher aus Oxford haben ein hochmodernes Modell namens demonstriert Echte Fusion, das in der Lage ist, ein vollständiges 360°-Fotomodell eines Objekts aus einem einzigen Bild zu rekonstruieren.

Generation Musik

Im Bereich der Musikgenerierung Google Research hat eingeführt Musik LM, ein auf Transformatoren basierendes Text-zu-Audio-Modell das kann Tracks verschiedener Genres, Instrumente und Konzepte produzieren.

Google-Forscher haben auch eingeführt Lied singen, ein System, das Instrumentalmusik generiert, um Stimmeingaben zu begleiten, und anonyme Forscher haben eingeführt Noise 2 Music, ein Diffusionsmodell, das hochwertige 30-Sekunden-Musikclips generiert aus Textaufforderungen.

Forscher des ByteDance AI Lab haben Make-An-Audio eingeführt, ein Text-zu-Audio-Diffusionsmodell, das Bilder und Videos dank robuster Generalisierung in Audio umwandeln kann.

Das deutsche Max-Planck-Institut hat veröffentlicht Mausai, ein generatives Modell von Text zu Musik in der Lage, qualitativ hochwertige Musik mit langem Kontext zu hören.

Rechtliche und medizinische KI

Stability AI hat eingeführt MedArc, eine Open-Source-Forschungsorganisation, die sich auf die Entwicklung von Grundmodellen für die medizinische KI-Forschung konzentriert.

Die siebtgrößte Anwaltskanzlei der Welt hat angekündigt, dass sie ihre Tätigkeit aufnehmen wird Harvey, eine generative KI-Software, die maßgeschneiderte LLMs für Anwaltskanzleien erstellt um Verträge, Kundennotizen und andere Rechtsdokumente zu entwerfen.

Andere Fortschritte

Forscher der Stanford University haben vorgestellt ControlNet, eine quelloffene neuronale Netzwerkstruktur mit dem Ziel, stabile Diffusionsmodelle zu verfeinern.

Forscher aus NYC und der University of Maryland haben einen neuen Ansatz vorgeschlagen Generieren Sie Hardtext-Eingabeaufforderungen aus Bildern.

Berkeley-Forscher haben vorgeschlagen Feinabstimmung im Nachhinein, eine neuartige Technik zur signifikanten Verbesserung der Leistung von LLMs mit einem begrenzten Maß an menschlichem Feedback.

Microsoft hat veröffentlicht BioGPT-Groß, ein 1,5B-Parametermodell aus der Generierung medizinischer Texte, das eine SOTA-Leistung von 81% Genauigkeit erreicht.

Nvidia-Forscher haben vorgestellt Re-Film, während Baidu-Forscher eingeführt haben Ernie-Musik, das erstes Modell zur Erzeugung von Text zu Musik im Wellenformbereich unter Verwendung von Diffusionsmodellen.

Google-Forscher haben gezeigt Vit-22b, das größte Vision-Transformator-Modell bei 22B-Parametern.

Stanford-Forscher haben vorgestellt Hyäne, eine neue Methode, mit der Sprachaufgaben auf dem neuesten Stand der Technik ausgeführt werden bei gleichzeitiger Senkung der Schulungskosten um 20% und Verbesserung der Inferenzzeit um das bis zu 100-fache.

Forscher der CMU haben ein Modell eingeführt, das generieren kann hochauflösende fotorealistische 3D-Bilder von einem 2D-Etikett. Forscher der UC Berkeley haben vorgeschlagen Neuetikettierung von Hindsight-Anweisungen.

Essen zum Mitnehmen

Zusammenfassend lässt sich sagen, dass der Bereich der KI in verschiedenen Bereichen, von der Musikgenerierung bis hin zur rechtlichen und medizinischen KI, bedeutende Fortschritte gemacht hat. Die im Februar 2023 vorgestellten Fortschritte zeigen das Potenzial der KI, Branchen zu revolutionieren und unser tägliches Leben zu verbessern. Mit kontinuierlicher Forschung und Entwicklung können wir in Zukunft noch mehr spannende Fortschritte erwarten. Da sich KI ständig weiterentwickelt, ist es wichtig, sich ihrer potenziellen Auswirkungen auf die Gesellschaft bewusst zu sein und sicherzustellen, dass ihre Entwicklung und Umsetzung verantwortungsvoll und ethisch sind.

Upgrade your data

Enhance your data

For visibility and growth

Wow your customers

AI-driven guidance

For smarter shopping