A Midjourney v7 hangutasítással és gyorsabb vázlatmóddal indul

A Midjourney , a 2022-es indulása óta sok mesterséges intelligencia-felhasználó által a mesterséges intelligencia képgenerálásának „arany standardjaként” tartott, rendszerindító startup most bemutatta generátormodelljének régóta várt, legfejlettebb változatát, a Midjourney v7-et.

A címsor funkció egy új módja annak, hogy a modellt képek készítésére ösztönözze.

Korábban a felhasználók szöveges üzenetek beírására és más képek csatolására korlátozódtak, hogy segítsék a generációk irányítását (a modell számos, felhasználó által feltöltött és csatolt képet tartalmazhatott, beleértve a Midjourney más generációit is, hogy befolyásolja az új generációk stílusát és témáit).

Mostantól a felhasználó egyszerűen hangosan beszélhet a Midjourney alpha webhelyének ( alpha.midjourney.com ) – feltéve, hogy van mikrofonja be/be/csatlakoztatva a számítógépébe (vagy hangbemenettel rendelkező hálózati eszközzel, például fejhallgatóval vagy okostelefonnal) – és a modell meghallgatja és elővarázsolja saját szöveges üzeneteit a felhasználó leírásai alapján, és a felhasználó által elmondott hangképeket generálja.

Nem világos, hogy a Midjourney a semmiből hozott létre egy új hangbeviteli modellt (beszéd-szöveg), vagy egy másik szolgáltatótól, például az ElevenLabstól vagy az OpenAI-tól származó, finomhangolt vagy kész verziót használ. Megkérdeztem a Midjourney alapítóját, David Holzot az X-en , de még nem válaszolt.

Vázlat mód és társalgási hangbevitel használata folyamatállapotban történő kéréshez
Ezzel a beviteli módszerrel kéz a kézben jár egy új „Vázlat mód”, amely gyorsabban generál képeket, mint a Midjourney v6.1, a legközvetlenebbül megelőző verzió, gyakran kevesebb mint egy perc vagy akár 30 másodperc alatt is.

Míg a képek kezdetben gyengébb minőségűek, mint a v6.1, a felhasználó rákattinthat az egyes generációk jobb oldalán található „javítás” vagy „változtatás” gombra, hogy a piszkozatot teljes minőségben újra renderelje.

Az ötlet az, hogy az emberi felhasználó szívesen használja a kettőt együtt – sőt, be kell kapcsolni a „Piszkozat módot” az audiobemenet aktiválásához –, hogy a modellel a kreatív rajzolás zökkenőmentesebb állapotába lépjen, kevesebb időt fordítva a felszólítások speciális nyelvének finomítására, és többet az új generációk megtekintésére, valós időben reagálva rájuk, és szükség szerint hozzáigazítva a gondolatmenethez és a modell gyorsabb módosításához.

„Tegye ezt a megjelenést részletesebbé, sötétebbé, világosabbá, valósághűbbé, kinetikusabbá, élénkebbé” stb. – ezek azok az utasítások, amelyeket a felhasználó az új audio interfészen keresztül adhat a generációk számára, hogy olyan új, kiigazított elemeket állítsanak elő, amelyek jobban megfelelnek kreatív elképzeléseiknek.

A Midjourney v7 első lépései
Ahhoz, hogy beléphessen ezekbe a módokba, kezdve az új „Piszkozat” funkcióval, a felhasználónak először át kell ugrania egy új akadályon: a Midjourney személyre szabási funkcióján.

Míg ezt a funkciót korábban , 2024 júniusában vezették be a Midjourney v6-on , ez opcionális volt, lehetővé téve a felhasználó számára, hogy olyan személyes „stílust” alakítson ki, amelyet minden generációra alkalmazni lehetett 200 képpár értékelésével (kiválasztva, melyik tetszett a legjobban a felhasználónak) a Midjourney webhelyen. A felhasználó ezután a páronkénti értékelési folyamat során átkapcsolhat egy olyan stílust, amely megfelel a neki legjobban tetsző képeknek.

Most a Midjourney v7 megköveteli a felhasználóktól, hogy hozzanak létre egy új v7-specifikus, személyre szabott stílust, mielőtt egyáltalán használnák.

Amint a felhasználó ezt megtette, a Midjourney Alpha webhely ismerős irányítópultjára kerül, ahol a bal oldali sínen a „Létrehozás” gombra kattintva megnyithatja a létrehozási lapot.

Ezután a felül található prompt beviteli sávban a felhasználó a sáv jobb oldalán található új „P” gombra kattintva bekapcsolhatja a személyre szabott módot.

A Midjourney alapítója és vezetője, David Holz megerősítette a VentureBeat on X-nek , hogy a v6-ból régebbi személyre szabási stílusok is választhatók, de nem a különálló „moodboards” – a felhasználók által feltöltött képgyűjteményekből álló stílusok –, bár a Midjourney X fiókja külön jelezte, hogy a funkció hamarosan visszatér . Azonban nem láttam lehetőséget a régebbi v6-os stílusom kiválasztására.

Mindazonáltal a felhasználó ezután a Személyre szabás gomb jobb oldalán található új „Piszkozat mód” gombra kattintva aktiválhatja ezt a gyorsabb képgenerálási módot.

Miután kiválasztotta a kurzorral, narancssárgára vált, jelezve, hogy be van kapcsolva, majd ennek jobb oldalán egy új gombnak kell megjelennie egy mikrofon ikonnal. Ez a hangos felszólító mód, amelyre a felhasználó még egyszer rákattinthat az aktiváláshoz.

Miután a felhasználó megnyomta ezt a mikrofongombot, hogy belépjen a hangutasítási módba, látnia kell, hogy a mikrofon ikon fehérről narancssárgára vált, jelezve, hogy bekapcsolt, és egy hullámforma vonal jelenik meg tőle jobbra, amelynek hullámoznia kell a felhasználó beszédével.

A modell ezután hallani fogja Önt, és hallania is kell, amikor befejezi a beszédet. A gyakorlatban néha kaptam egy hibaüzenetet, hogy „Realtime API disconnected”, de a hangbeviteli mód leállítása és újraindítása, valamint a weboldal frissítése általában gyorsan törölte.

Néhány másodpercnyi beszéd után a Midjourney elkezd villogni néhány kulcsszóablakot a felül található prompt beviteli szövegmező alatt, és egy teljes szöveges promptot is generál jobbra, mivel a felhasználó által elmondottak alapján egy új 4 képből álló készletet generál.

A felhasználó ezután tovább módosíthatja ezeket az új generációkat, ha ismét beszél a modellhez, és szükség szerint be- és kikapcsolja a hangmódot.

Íme egy gyors bemutató videó arról, hogyan használom ma néhány mintakép létrehozásához. Látni fogja, hogy a folyamat korántsem tökéletes, de nagyon gyors, és több megszakított állapotot tesz lehetővé, amikor a modelltől kéri, finomítja és fogadja a képeket.

Még több új funkció… de sok hiányzó funkció és korlátozás is a 6/6.1 verzióból
A Midjourney v7 két üzemmóddal indul: Turbó és Relax. A Turbó mód nagy teljesítményt biztosít, kétszer olyan költséggel, mint egy normál v6-os munka, míg a Draft mód feleannyiba kerül ( a feladatokat tekintve ). A szabványos sebességű mód jelenleg fejlesztés alatt áll, és az optimalizálást követően kerül kiadásra.

Indításkor az olyan funkciók, mint a felskálázás, a festés és az újratextúrázás átmenetileg a v6 modellre támaszkodnak. A Midjourney azt tervezi, hogy ezeket a funkciókat a jövőbeli frissítések során átállítja a 7-es verzióra.

A cég elkötelezi magát a rendszeres fejlesztés mellett a következő két hónapban, a frissítéseket egy-két hetente ütemezzük. Jelentős újdonság lesz egy új karakter- és objektumhivatkozási rendszer, amelyet kifejezetten a v7-hez terveztek, és a Midjourney régebbi verzióiban megtalálhatók olyan funkciók, amelyek olyan rejtélyes szöveges utótagokat alkalmaznak, mint a –cref és –sref (stílus) a felhasználó szöveges promptjainak javítására.

A Midjourney azt tervezi, hogy nyilvános megosztási tereken és visszacsatolási csatornákon keresztül bevonja közösségét, és ütemterv-rangsorolási ülést szervez a jövőbeli fejlesztési erőfeszítések prioritásainak meghatározására.

Midjourney hangsúlyozza, hogy a v7 egy teljesen új modell, megvan a maga erősségei és kihívásai. A felhasználókat arra ösztönzik, hogy kísérletezzenek különböző promptstílusokkal, és számoljanak be tapasztalataikról a platform finomítása érdekében.

A kezdeti reakció vegyes… messze van a korábbi Midjourney-kiadások szinte egyhangú dicséretétől
Míg a régebbi Midjourney kiadások többsége elsöprő izgalommal és dicsérettel fogadta, a v7 kezdeti fogadtatása határozottan vegyesebb.

Bár a Midjourney óvatos volt, hogy ezt „alfa” kiadásnak nevezze a blogjában és a közösségi médiában , sok felhasználó még mindig nagyobb ugrást várt a képminőségben és a gyors ragaszkodásban (milyen jól illeszkedtek a képgenerációk a felhasználó konkrét utasításaihoz szövegben vagy hangban), valamint jobb emberi anatómiai megértést reméltek (különösen a kezek, valami gyakori mesterséges intelligencia, bár a képgenerációs problémák és a képgenerációs problémák) és Az OpenAI natív GPT-4o képgenerátora a kezdeti felhasználói jelentések alapján sokkal következetesebben pontosabbnak tűnik, mint a Midjourney v7).