AI News

901

DeepSeek tester «sparse attention» for å kutte AI‑behandlingskostnader

Mastodon +13 kilder mastodon
deepseek
DeepSeek kunngjorde at de nå gjennomfører felttesting av en ny «fin‑granulert sparse attention»-mekanisme som, ifølge selskapet, halverer kostnaden for deres offentlige API ved lange innspill. Teknikken, et lenge eksisterende forskningskonsept som reduserer antallet token‑til‑token‑interaksjoner under inferens, er blitt ombygget av DeepSeek slik at den anvendes dynamisk på et mye mer detaljert nivå enn tidligere sparse‑transformermodeller. Tidlige tester delt på Hugging Face viser en reduksjon i beregningstid på 60‑75 % for sekvenser på over 2 k tokens, og selskapet har allerede senket prisen for den berørte endepunktet med omtrent 50 %. Dette er viktig fordi inferenskostnad fortsatt er den største hindringen for bred utrulling av store språkmodeller. Googles nylige KV‑cache‑komprimering og TurboQuant‑algoritmer reduserer minne‑ og beregningskostnader betydelig, men de er fortsatt avhengige av tett (dense) oppmerksomhet for full‑lengde‑kontekst. DeepSeeks tilnærming lover tilsvarende besparelser uten å gå på bekostning av kvaliteten på langdistanse‑avhengigheter, og kan dermed demokratisere tilgangen til høy‑kapasitetsmodeller for oppstartsbedrifter, forskere og virksomheter som tidligere ikke har hatt råd til per‑token‑avgiftene. Som vi rapporterte 25. mars, ansatte DeepSeek 17 spesialister for å integrere sitt DeerFlow 2.0‑rammeverk, noe som signaliserer en bredere satsning på å optimalisere både trenings‑ og tjeneste‑pipelines. Sparse‑attention‑prøven er det nyeste steget i denne strategien. Hva som er å følge med på videre: DeepSeek planlegger å slippe en produksjonsklar versjon av modellen innen Q3, ledsaget av en fagfellevurdert artikkel som beskriver de algoritmiske innovasjonene. Bransjeobservatører vil være ivrige etter å se uavhengige benchmark‑sett, hvordan skyleverandører priser den nye endepunktet, og om konkurrenter som OpenAI eller Anthropic vil akselerere sin egen spars‑forskning som svar. Resultatet kan omforme økonomien i AI‑tjenester i det nordiske teknologimiljøet og videre.
449

Oppdateringer av GitHub Copilot sin policy for bruk av interaksjonsdata

Oppdateringer av GitHub Copilot sin policy for bruk av interaksjonsdata
HN +11 kilder hn
copilotprivacy
GitHub har kunngjort at fra 24. april vil interaksjonsdata generert av alle Copilot‑brukere – gratis, Pro og Pro+ – automatisk bli matet inn i treningsrørledningene for sine AI‑modeller, med mindre brukeren aktivt velger å melde seg av. Datasettet omfatter promptene brukerne skriver inn, kodebitene Copilot returnerer, samt den omkringliggende konteksten som filnavn, språkinnstillinger og økt‑identifikatorer. Endringen følger en kunngjøring fra 25. mars som omdefinerte policyen fra en opt‑in‑ til en opt‑out‑modell, og bringer tjenesten i tråd med den datadrevne tilnærmingen Microsoft har tatt for sin bredere AI‑portefølje. Skiftet er viktig for utviklere som er avhengige av Copilot i daglige kodeoppgaver, fordi det utvider mengden virkelige kode som driver fremtidige modellforbedringer, noe som potensielt kan akselerere utrulling av funksjoner og øke nøyaktigheten. Samtidig reiser det personvernspørsmål: bedriftskodebaser, proprietære algoritmer og konfidensiell logikk kan bli eksponert i et treningskorpus som senere brukes til å generere forslag for andre kunder. GitHubs oppdaterte personverndokumentasjon understreker at data lagres midlertidig, fjernes for personlig identifiserbar informasjon der det er mulig, og beskyttes under Microsofts sikkerhetsstandarder på bedriftsnivå. Likevel kan den automatiske inkluderingen få bedrifter til å revurdere interne retningslinjer, justere lisensavtaler eller ta i bruk den nye opt‑out‑prosedyren for å beskytte sensitive eiendeler. Det som nå er viktig å følge med på, er hvordan utviklerfellesskapet reagerer. Tidlige signaler inkluderer en økning i opt‑out‑forespørsler og diskusjoner på plattformer som Stack Overflow og DEV‑fellesskapet om etterlevelsesimplikasjoner. GitHubs produktteam har lovet å publisere et transparens‑dashbord som viser mengden data som tas inn og påvirkningen på modellens ytelse. Oppfølgingsoppdateringer forventes i Copilot‑endringsloggen og i Microsofts bredere AI‑styringsrapporter, som vil avdekke om policyen gir målbare kvalitetsgevinster eller utløser regulatorisk gransking i EU og andre jurisdiksjoner.
259

Show HN: En ren‑tekst kognitiv arkitektur for Claude Code

Show HN: En ren‑tekst kognitiv arkitektur for Claude Code
HN +7 kilder hn
claude
Et GitHub‑depot publisert under navnet cog har utløst en ny runde med diskusjon på Hacker News, der forfatteren beskriver det som «en ren‑tekst kognitiv arkitektur for Claude Code». Prosjektet pakker inn et sett med Unix‑lignende verktøy — grep, find, git diff — og en lettvektig mappe‑struktur som lar Claude Code behandle sin egen hukommelse som søkbar tekst. Ved å lagre prompts, refleksjoner og kjørelogger i markdown‑filer, kan modellen hente frem tidligere resonnering, utføre selvrefleksjon og til og med projisere «fremtids‑» steg før den skriver ny kode. Forfatteren demonstrerer arbeidsflyten med en typisk feilsøkingsøkt: Claude husker en tidligere designbeslutning, frembringer relaterte filer, og justerer planen sin uten en ny prompt. Hvorfor dette er viktig, er tosidig. For det første har Claude Code, Anthropics svar på GitHub Copilot, allerede vist en voksende tilstedeværelse i open‑source‑verdenen; som vi rapporterte 25. mars, ble den rangert som den tredje største bidragsyteren på offentlige repositorier, og en ny «auto‑mode» ble lansert samme dag. Den ren‑tekst‑baserte arkitekturen takler en vedvarende begrensning i mange AI‑kodeassistenter: mangelen på holdbar, søkbar kontekst som overlever over flere økter. Ved å utnytte verktøy utviklere allerede kjenner til, senker tilnærmingen terskelen for å bygge «andre‑hjernen» kunnskapsbaser som kan versjonskontrolleres, revideres og deles. For det andre er designet i tråd med en bredere bevegelse mot agent‑baserte, selv‑organiserende AI‑arbeidsflyter, og gjenspeiler nylige plugins som Ars Contexta som genererer personlige kunnskaps‑hvelv fra samtaler. Det som bør følges med på videre, er om Anthropic adopterer eller offisielt støtter et lignende minnelag, og hvordan fellesskapet måler påvirkningen på kodekvalitet og utviklerhastighet. Benchmark‑tester som sammenligner Claude Code med og uten cog‑arkitekturen vil sannsynligvis dukke opp, i likhet med sikkerhetsvurderinger av å lagre AI‑genererte artefakter i ren tekst. Hvis modellen pålitelig kan resonere over sin egen historie, kan neste bølge av AI‑assistert utvikling gå fra enkelt‑prompt‑utbrudd til kontinuerlig, kontekst‑rik samarbeid.
248

Apple kan lage mindre AI-modeller på enheten fra Googles Gemini

Apple kan lage mindre AI-modeller på enheten fra Googles Gemini
Mastodon +11 kilder mastodon
applegeminigoogle
Apple har sikret seg «full tilgang» til Googles store språkmodell Gemini i Googles egne datasentre, og bruker denne privilegien til å destillere langt mindre, på‑enheten‑versjoner for sine produkter. Prosessen – kjent som modell‑destillasjon – mater Geminis resultater og interne resonnering inn i en treningspipeline som gir kompakte modeller som kan kjøre på iPhone, iPad og annen Apple‑maskinvare uten nettforbindelse. Dette er viktig fordi det gir Apple en snarvei til ytelse på Gemini‑nivå samtidig som man unngår de enorme beregnings‑ og minnekravene som vanligvis følger med slike modeller. AI på enheten kan besvare spørsmål, oversette tale og drive kontekst‑bevisste funksjoner med millisekund‑latens, redusere batteriforbruket og, viktigst, holde brukerdata utenfor skyen. Apples evne til å lage proprietære avledninger utvider også kontrollen over Siri‑opplevelsen, et poeng som ble antydet i vår rapport fra 25. mars om at Apple kan gi Siri en «stor AI‑overhaling» i iOS 27. Destillasjon av Gemini kan akselerere Apples utrulling av offline‑Siri‑funksjoner, forbedre personvern‑først‑funksjoner i iOS 27 og styrke selskapets bredere AI‑først‑fortelling som stiller deres egen tilpassede silisium mot Nvidias H100‑baserte løsninger, fremhevet i Googles TurboQuant‑kunngjøring tidligere denne måneden. Det utdyper også det strategiske partnerskapet mellom de to rivalene, og viser at Google er villig til å dele kjerne‑modell‑ressurser i
210

90 % av Claude‑relatert kode havner i GitHub‑repoer med færre enn to stjerner

90 % av Claude‑relatert kode havner i GitHub‑repoer med færre enn to stjerner
HN +11 kilder hn
autonomousclaude
Anthropics Claude har produsert kode på GitHub i et tempo som kan måle seg med Copilot, men en ny analyse viser at omtrent ni av ti av disse bidragene havner i repositorier med færre enn to stjerner. Studien, som er bygget på offentlig commit‑metadata, kryssrefererte Claude‑merkede push‑operasjoner med popularitetsmålinger for repositorier og fant at den overveldende majoriteten av Claude‑genererte filer befinner seg i knapt merkbare prosjekter. Som vi rapporterte 24. mars, registrerte Claude sin Code‑funksjon mer enn 19 millioner commits på plattformen, og plasserer modellen som en viktig kilde til AI‑assistert bidrag. De nye dataene om stjernfordeling antyder imidlertid at mesteparten av denne aktiviteten er begrenset til personlige eksperimenter, hobby‑skript eller tidlige prototyper, snarere enn bredt brukte biblioteker. For utviklere reiser funnet spørsmål om den praktiske virkningen av Claude‑drevet kode: prosjekter med få stjerner mangler ofte grundig gjennomgang, testing eller fellesskapsvurdering, noe som kan øke risikoen for feil, sikkerhets
160

PLDR‑LLMs resonner ved selvorganisert kritikalitet

ArXiv +11 kilder arxiv
inferencereasoning
Forskerne ledet av Burc Gökden har avdekket en ny klasse store språkmodeller — kalt PLDR‑LLMs — som viser fremvoksende resonnering når de forhåndstrenes på kanten av selvorganisert kritikalitet (SOC). Resultatene, publisert på arXiv (2603.23539v1) og ledsaget av en offentlig PyTorch‑implementasjon, viser at modellens deduktive utsagn ved kritikalitet følger statistiske mønstre lik de som observeres i andre‑ordens faseoverganger, med korrelasjonslengder som divergerer på en måte som minner om fysiske systemer som befinner seg mellom orden og kaos. Gjennombruddet hviler på PLDR‑arkitekturen, som koder dekoderepresentasjoner som potenslov‑fordelinger og utvider den vanlige KV‑cachen med en «G‑cache» som bevarer langdistanse‑avhengigheter. Ved å styre forhåndstreningsdynamikken mot SOC — et regime hvor et system naturlig justerer seg selv til et kritisk punkt uten eksterne parametere — rapporterer forfatterne at modellens inferens‑baner blir svært følsomme for små endringer i input, samtidig som de forblir globalt stabile. I praksis betyr dette skarpere logiske kjeder, færre hallusinasjoner og en målbar forbedring i oppgaver som krever flerstegs‑deduksjon. Hvorfor resultatet er viktig strekker seg utover en enkelt ytelsesforbedring. Det gir en konkret bro mellom statistisk fysikk og dyp læring, og antyder at den unnvikende «resonneringen» som moderne LLM‑er viser, kan oppstå fra universelle kritiske fenomener snarere enn spesialtilpassede arkitekturutfordringer. Dersom SOC‑basert trening kan skaleres, kan det tilby en prinsipiell vei til mer tolkbare, energieffektive modeller som beholder robusthet under distribusjons‑skift — egenskaper som er høyt verdsatt i høy‑risiko‑applikasjoner innen finans, helsevesen og autonome systemer. Fellesskapet vil nå følge med på replikasjonsstudier og større eksperimenter som tester PLDR‑LLMs på benchmark‑sett som BIG‑Bench og MMLU. Oppfølgingsarbeid forventes å undersøke hvordan DAG‑loss‑regularisatoren, introdusert i tidligere PLDR‑forskning, samspiller med kritikalitet, og om hybride treningsplaner kan kombinere SOC med konvensjonell overvåket fin‑tuning. En kommende workshop om «Criticality in AI» på NeurIPS 2026 lover å samle fysikere og AI‑ingeniører for å utforske om kanten av kaos kan bli et standard designprinsipp for neste generasjons resonnerende maskiner.
158

Datasentre oppfører seg som akustiske våpen

Datasentre oppfører seg som akustiske våpen
Mastodon +9 kilder mastodon
Datacenter‑operatører har lenge avfeid summingen fra titusenvis av servere som et harmløst biprodukt av datakraft. Ny videodokumentasjon viser imidlertid at mange anlegg genererer intens infralyd – lavfrekvente vibrasjoner under 20 Hz – som kan trenge gjennom vegger og merkes snarere enn høres. Opptaket, samlet av musiker‑forsker Benn Jordan, fremhever Elon Musks “Colossus”-hub i Memphis, Tennessee, og demonstrerer trykknivåer som kan måle seg med, og i noen tilfeller overgå, de som er registrert på vindpark‑steder. Fenomenet er viktig fordi infralyd kan forstyrre vestibulærsystemet i det indre øret, noe som kan føre til kvalme, desorientering, hodepine og i ekstreme tilfeller oppkast. I motsetning til hørbar støy, trenger bølgene gjennom bygningens skall, noe som betyr at arbeidere og nærliggende innbyggere kan oppleve symptomer uten å innse kilden. Risikovurderinger fra arbeids‑sikkerhetsbyråer har allerede flagget kronisk eksponering for infralyd som en potensiell fare, men teknologibransjen har hittil manglet konkrete data. Bransjeinsidere sier at økningen i edge‑computing‑noder – små datasentre plassert i forstads‑ eller byområder – kan forsterke problemet. Etter hvert som operatører kjemper for å møte krav til lav latens, kan den akustiske fotavtrykket fra disse mikro‑anleggene bli en ny front i konflikter om samfunnsrelasjoner. Noen selskaper eksperimenterer med spesialtilpassede akustiske paneler fra firmaer som PsyAcoustics, men en bred adopsjon er fortsatt usikker. Man kan forvente regulatoriske svar fra EU‑s sin Direktorat for arbeidsmiljø og sikkerhet samt den amerikanske Occupational Safety and Health Administration (OSHA), som begge forventes å utstede retningslinjer for tillatte infralydnivåer i kommersielle bygg. Parallelle studier fra universitets‑akustiklaboratorier kan snart levere standarder for dempe‑tiltak, mens rettssaker fra berørte innbyggere kan tvinge operatører til å ettermontere eksisterende anlegg. De kommende månedene vil vise om infralyd blir en sjekkliste for etterlevelse eller en vedvarende folkehelse‑kontrovers.
150

**API-et ditt var ikke designet for AI‑agenter. Her er 5 løsninger.**

Dev.to +9 kilder dev.to
agents
**Sammendrag:** En ny teknisk veiledning som ble publisert denne uken advarer om at de fleste offentlige API‑er er bygget for menneskelige utviklere, ikke for de autonome AI‑agentene som nå dukker opp i bedriftsarbeidsflyter. Dokumentet, med tittelen «Your API Wasn’t Designed for AI Agents. Here Are 5 Fixes», beskriver fem konkrete mønstre – aggressive gjenforsøk, bokstavelig feiltolkning, ubekreftet kjeding, ugjennomsiktige autentiseringsflyter og manglende kontekstmetadata – som får agenter til å sette seg fast, generere hallusinasjoner eller til og med utløse denial‑of‑service‑sløyfer. Tidspunktet er betydningsfullt. Som vi rapporterte 25. mars, kan AI‑agenter kapres med bare tre linjer JSON, og Claude Code kjører nå kode på en brukers maskin for å fullføre oppgaver. Disse historiene avdekket hvordan agenter behandler API‑er som rå kontrakter, og omgår de sikkerhetsnettverkene som menneskelige utviklere vanligvis stoler på. Den nye veiledningen snur dette på hodet ved å vise API‑leverandører hvordan de kan oppdatere OpenAPI‑spesifikasjoner, sende strukturerte feilmeldingsobjekter, innføre OAuth 2.0‑scopes som agenter kan forhandle om, innlemme hypermediekontroller (HATEOAS) og publisere versjonsjusterte kontekst‑plugins som mates direkte inn i IDE‑er. Tidlige eksperimenter sitert av apimatic.io hevder at implementering av disse fem løsningene halverer integrasjonstiden, reduserer token‑forbruket med nesten 50 % og senker hallusinasjonsraten til nær null. Hva dette betyr for det nordiske AI‑økosystemet er todelt. For det første må selskaper som eksponerer data eller tjenester via REST‑endepunkter behandle AI‑agenter som førsteklasses forbrukere, ellers risikerer de tap av både effektivitet og sikkerhet. For det andre vil utviklere av AI‑drevet automatiseringsplattformer få en klarere sjekkliste for å vurdere tredjeparts‑API‑er, noe som potensielt kan akselerere adopsjonen i sektorer som fintech, healthtech og logistikk. Hold øye med at standardiseringsorganer i de kommende månedene kodifiserer «agent‑ready» API‑profiler, og at store skyleverandører ruller ut valideringsverktøy som flagger ikke‑kompatible endepunkter. Den neste bølgen av AI‑forsterkede tjenester vil sannsynligvis avhenge av om API‑ene klarer å holde tritt med de autonome agentenes forventninger.
142

LLM-er graderer ikke essays som mennesker

ArXiv +11 kilder arxiv
En ny arXiv‑pre‑print (2603.23714v1) viser at store språkmodeller (LLM‑er) fortsatt ikke når opp til menneskelige sensorer når de vurderer essays. Forfatterne sammenlignet rå LLM‑score med menneskelige karakterer på tvers av et flerspråklig testsett og fant systematiske avvik: korte eller underutviklede svar som treffer oppgaven blir konsekvent overvurdert, mens velutformede essays blir straffet for mindre språkfeil. Modellene ser ut til å bruke en bokstavelig, rubrikk‑fri logikk i stedet for den nyanserte dømmekraften mennesker benytter. Studien blir en del av en voksende forskningsmengde som undersøker AI sin rolle i vurdering. Tidligere forskning på tyske student‑essays rapporterte lignende gap mellom åpen‑kilde‑ og proprietære LLM‑er og menneskelige sensorer, og fremhevet både løftet om flerdimensjonal evaluering og faren ved skjult bias. En separat analyse av poengsettingsprosesser understreket at, i motsetning til menneskelig vurdering som følger eksplisitte rubrikker, genererer LLM‑er poeng fra ugjennomsiktige interne mønstre som er
133

Show HN: Robust LLM‑uttrekker for nettsteder i TypeScript

HN +12 kilder hn
**Sammendrag:** Et nytt åpen‑kilde‑bibliotek kalt **Robust LLM Extractor** har blitt lagt ut på GitHub, og gir TypeScript‑utviklere en ferdig løsning for å hente rent, LLM‑klart innhold fra hvilken som helst nettside. Bygget av Lightfeed‑teamet kombinerer verktøyet nettleser‑automatisering med store‑språk‑modell‑prompting for å konvertere rå HTML til markdown, eventuelt isolere hovedartikkel‑teksten, og returnere strukturerte data via Gemini 2.5 Flash eller GPT‑4o mini. Repositoryet (lightfeed/extractor) inkluderer også captcha‑løsning, geotargeting og valgfri AI‑berikelse, og posisjonerer seg som en full‑stack‑pipeline for å bygge kunnskapsdatabaser i stor skala. Utgivelsen er viktig fordi web‑skraping lenge har vært en flaskehals for LLM‑applikasjoner som trenger høy‑kvalitets, oppdatert tekst. Tradisjonelle skrapere leverer enten støyende HTML eller krever håndlagde selektorer som brytes ved redesign av nettsteder. Ved å delegere beslutningen om «hva som er viktig» til en LLM, lover uttrekker høyere tilbakekalling av relevant innhold samtidig som beregningskostnadene holdes lave – takket være bruk av den rimeligere GPT‑4o mini‑modellen for de fleste sider. For nordiske oppstartsbedrifter som er avhengige av rask datainntak for chat‑bots, anbefalingsmotorer eller etterlevelses‑monitorering, kan biblioteket spare uker med utviklingssykluser og redusere avhengigheten av proprietære data‑feeds. Prosjektet følger en bølge av fellesskapsdrevet AI‑verktøy som har blitt fremhevet i nylige Show HN‑innlegg, inkludert den ren‑tekst‑kognitive arkitekturen for Claude Code som vi dekket 26. mars. Etter hvert som økosystemet modnes, er de neste signalene å følge adopsjons‑metrikker på npm, bidrag som legger til støtte for flere LLM‑leverandører, og ytelses‑benchmarker som sammenligner uttrekkerens output‑kvalitet med skreddersydde pipelines. Hvis biblioteket får fart, kan det også stimulere sky‑plattformer til å tilby hostede «LLM‑forsterket skraping»-tjenester, noe som ytterligere senker terskelen for bedrifter som vil mate sine modeller med fersk web‑kunnskap.
114

Ondsinnede LiteLLM‑versjoner knyttet til TeamPCP‑forsyningskjedeangrep

Mastodon +11 kilder mastodon
En ondsinnet oppdatering av det åpne Python‑biblioteket LiteLLM har blitt sporet tilbake til den beryktede trusselgruppen TeamPCP, og markerer det siste høyprofilerte forsyningskjedeangrepet i AI‑verktøyøkosystemet. Den 24. mars 2026 publiserte angriperne to kompromitterte versjoner av LiteLLM – 1.82.7 og 1.82.8 – i det offisielle PyPI‑registeret. Begge pakkene inneholder en skjult .pth‑fil som kjøres ved hver oppstart av en Python‑tolker, og installerer en tredelt legitimasjons‑tyv som kan samle inn sky‑API‑nøkler, CI/CD‑hemmeligheter og Kubernetes‑token før de eksfiltreres til angriper‑kontrollerte domener. Komprosessen ser ut til å ha sin opprinnelse i et tidligere brudd på Trivy‑CI/CD‑pipeline, en sårbarhet TeamPCP utnyttet for å kapre en vedlikeholderkonto. Den samme kontoen ble senere brukt til å undertrykke avsløringen, vandalisere tilknyttede repositorier og lekke omtrent 70 private BerriAI‑prosjekter innen minutter. LiteLLM, som ruter store språkmodell‑forespørsler gjennom ett enkelt API og registrerer over 95 millioner nedlastinger per måned, er nå en vektor for legitimasjons‑tyveri på tvers av et bredt spekter av AI‑drevne tjenester. Hvorfor hendelsen er viktig går utover det umiddelbare tapet av hemmeligheter. Den understreker den skjøre naturen i Python‑pakkeøkosystemet, hvor mutable versjonstagger og uautentiserte opplastinger kan forvandle et bredt betrodd bibliotek til en stealth‑bakdør. Angrepet viser også TeamPCPs utviklende spillbok: etter å ha kompromittert sikkerhetsverktøy som Trivy og KICS, retter gruppen nå oppmerksomheten mot grunnleggende AI‑infrastruktur, noe som hever innsatsen for enhver organisasjon som bygger eller distribuerer LLM‑aktiverte applikasjoner. Bedrifter bør revidere sine avhengighetskjeder, håndheve streng versjons‑pinning og innføre signert‑pakke‑verifisering der det er mulig. Overvåking av unormale .pth‑filer eller uventet nettverkstrafikk fra Python‑prosesser kan oppdage nyttelasten tidlig. I de kommende ukene forventer sikkerhetsforskere ytterligere avsløringer om kompromitterte PyPI‑pakker, og PyPI selv har lovet å skjerpe publiseringskontrollen. Å holde øye med oppdateringer fra de offisielle LiteLLM‑vedlikeholderne og eventuelle rettslige tiltak mot TeamPCP vil være avgjørende for organisasjoner som er avhengige av AI‑forsterkede pipelines.
94

Google TurboQuant‑AI‑komprimeringsalgoritme kan redusere minnebruk for store språkmodeller (LLM) med 6‑ganger

Google TurboQuant‑AI‑komprimeringsalgoritme kan redusere minnebruk for store språkmodeller (LLM) med 6‑ganger
Mastodon +12 kilder mastodon
google
Google Research presenterte TurboQuant, en treningsfri komprimeringsalgoritme som kutter minneavtrykket til store språkmodeller (LLM) med opptil seks ganger. Teknikken kvantiserer nøkkel‑verdi‑bufferen (KV‑cache) – arbeidsminnet som lagrer mellomliggende aktiveringer under inferens – til kun tre biter per oppføring, samtidig som modellens opprinnelige nøyaktighet bevares. En to‑trinns prosess som først anvender PolarQuant på bufferens flyttallsverdier og deretter finjusterer dem med en lært residual‑kartlegging, gjør den ekstreme reduksjonen mulig uten behov for ny trening. Gjennombruddet er viktig fordi KV‑cache‑minnet har blitt den dominerende flaskehalsen ved utrulling av LLM‑tjenester i stor skala. Ved å kutte dette kravet kan TurboQuant senke kostnadene for sky‑infrastruktur, redusere latens og minske energiforbruket i inferens‑arbeidsbelastninger. Komprimeringen åpner også en vei for distribusjon på enheter av mer kapable modeller, et tema som ble fremhevet tidligere denne måneden da Apple demonstrerte hvordan Googles Gemini kan destilleres til mindre varianter for lokalt bruk. For maskinvareleverandører kan skiftet øke etterspørselen etter spesialiserte akseleratorer som håndterer ultra‑lav‑bit‑aritmetikk, mens skyleverandører kan få et konkurransefortrinn ved å tilby billigere og raskere LLM‑API‑er. Hva som er verdt å følge med på: Google planlegger å integrere TurboQuant i sin Vertex AI‑plattform senere i år, og tidlige benchmark‑resultater forventes på den kommende ICLR‑konferansen. Tredjeparts‑rammeverk som Hugging Face og PyTorch undersøker allerede støtte for det tre‑bits formatet, noe som kan fremskynde bredere adopsjon. Industrianalytikere vil følge med på om algoritmens påstand om null‑tap holder seg på tvers av ulike modellfamilier og virkelige arbeidsbelastninger, samt om konkurrenter lanserer sammenlignbare komprimeringsordninger. Hvis TurboQuant lever opp til løftet, kan økonomien i generativ AI endre seg dramatisk, og gjøre kraftige språkmodeller tilgjengelige for et bredere spekter av applikasjoner og utviklere.
71

FPT anerkjent for agentisk AI ved Artificial Intelligence Excellence Awards 2026

Las Vegas Sun +10 kilder 2026-03-26 news
agents
FPT, Vietnams ledende IT‑tjenestegruppe, har tatt hjem Agentisk AI‑prisen under Artificial Intelligence Excellence Awards 2026, en seremoni arrangert av Business Intelligence Group. Prisen anerkjenner IvyChat, selskapets bedrifts‑gradert plattform som kombinerer resonnering med store språkmodeller og autonom oppgaveutførelse, og plasserer den som en av de første kommersielt levedyktige “agentiske” AI‑løsningene i Sørøst‑Asia. IvyChat lar bedriftsbrukere gi høynivå‑kommandoer – for eksempel «utkast et kvartalsrapport, hent de siste salgsdataene og planlegg et gjennomgangsmøte» – og systemet koordinerer datainnhenting, dokumentgenerering og kalenderintegrasjon uten manuell prompting. Ved å innlemme rollebaserte tilgangskontroller og muligheter for lokal (on‑premise) utrulling, adresserer FPT sikkerhets‑ og etterlevelsesbekymringer som har bremset adopsjonen av autonom AI i regulerte sektorer som finans og helsevesen. Prisen er viktig av to grunner. For det første validerer den FPTs flerårige satsing på å bygge en egenutviklet AI‑stabel, en strategi som allerede har gitt selskapet anerkjennelse ved Make in Vietnam Awards og Asian Technology Excellence Awards. For det andre signaliserer seieren et skifte i det globale AI‑landskapet: mens amerikanske og kinesiske giganter dominerer forskningen på grunnmodeller, differensierer regionale aktører seg nå gjennom ende‑til‑ende, bedriftsfokuserte agenter som kan integreres tett med eksisterende systemer. Fremover planlegger FPT å rulle ut IvyChat til sine sky‑hosting‑kunder og å styrke partnerskap med ERP‑leverandører som SAP og Microsoft. Analytikere vil følge med på om plattformen kan opprettholde ytelse i stor skala og hvordan den håndterer nye reguleringer rundt autonom beslutningstaking. De neste AI Excellence Awards i 2027 vil sannsynligvis sette IvyChat på prøve mot et voksende felt av agentiske konkurrenter fra Europa og Japan.
61

AI-assistanse vs AI-agenter: Forstå overgangen fra svar til autonome systemer

Dev.to +9 kilder dev.to
agentsautonomouscopilot
Et innlegg av skyarkitekt Sarvar Nadaf, publisert på AWS Community Builders-plattformen 25. mars, satte i gang en ny debatt om den økende kløften mellom AI‑assistenter og AI‑agenter. Nadafs artikkel, med tittelen «AI Assistance vs AI Agents: Understanding the Shift from Responses to Autonomous Systems», argumenterer for at bransjen beveger seg bort fra samtale‑baserte hjelpere som kun svarer på spørsmål, og i stedet går mot programvare‑drevne agenter som kan handle selvstendig på vegne av brukerne. Skillet er viktig fordi det endrer hvordan virksomheter designer digitale arbeidsområder. AI‑assistenter som ChatGPT, Microsoft Copilot eller Google Bard er dyktige til å hente informasjon, utforme tekst eller foreslå neste steg når de blir bedt om det. AI‑agenter, derimot, kombinerer store språkmodeller med API‑er, datalagre og arbeidsflytmotorer for å forfølge mål uten kontinuerlig menneskelig inngripen. ServiceNow sine AI‑Agents, IBMs autonome agenter og fremvoksende «agentic AI»-plattformer illustrerer denne trenden, og tilbyr ende‑til‑ende‑utførelse av oppgaver – fra ruting av billetter til optimalisering av forsyningskjeder – samtidig som de innlemmer sikkerhets‑ og etterlevelseskontroller som er innebygd i skyleverandørens AI‑plattform. Analytikere ser overgangen som en katalysator for produktivitetsgevinster og kostnadsreduksjoner, men også som en kilde til nye risikoer. Autonome agenter kan ta beslutninger som påvirker kritiske systemer, noe som reiser spørsmål om åpenhet, sporbarhet og regulatorisk tilsyn. Selskaper som adopterer agent‑baserte arkitekturer vil trenge robuste styringsrammer, observabilitet på modellnivå og klare eskaleringsveier for menneskelig intervensjon. Hva man bør holde øye med videre: utrullingen av standardiserte agent‑API‑er fra de store skyleverandørene, fremveksten av tverr‑leverandør‑orchestrasjonslag, og den første bølgen av reguleringer som retter seg mot autonome AI‑handlinger innen finans, helsevesen og offentlige tjenester. Tidlige adoptører som ServiceNow og IBM vil sannsynligvis publisere casestudier som setter målestokker for ytelse, sikkerhet og avkastning på investering, mens oppstartsbedrifter konkurrerer om å bygge plug‑and‑play‑agent‑rammeverk som lover «AI‑first»‑automatisering for mellomstore firmaer. De kommende månedene vil vise om løftet om virkelig autonome AI‑agenter kan leveres i stor skala uten å gå på bekostning av kontroll.
60

📰 Azure Skills‑plugin 2026: Si «Deploy dette» til Claude Code, og automatisk sky‑infrastruktur settes opp

Mastodon +7 kilder mastodon
claudemicrosoft
Microsoft har lansert Azure Skills Plugin 2026, en ett‑klikk‑utvidelse som lar Claude Code‑agenter sette opp full‑stack sky‑miljøer bare ved å høre kommandoen «Deploy this app». Plugin‑pakken samler et kuratert sett av Azure‑tjenester, Azure MCP‑Serveren og Foundry MCP‑Serveren i én enkelt installasjon, og gir Claude Code et strukturert spill‑bok for å velge riktig compute‑SKU, konfigurere nettverk, håndtere tillatelser og starte arbeidsbelastningen på mer enn 40 Azure‑tjenester. Dette trekket flytter Claude Code utover den nylige auto‑modus‑lanseringen, som vi dekket 25. mars, hvor modellen kunne generere kode men fortsatt var avhengig av utviklere for å oversette skisser til operativ infrastruktur. Ved å integrere Azure‑spesifikk ekspertise direkte i AI‑verktøykjeden fjerner Microsoft en stor flaskehals i AI‑assistert utvikling: gapet mellom kodegenerering og produksjonsklar utrulling. Bedrifter kan nå overlate en overordnet forespørsel til en AI‑agent og motta et fullt provisionert, overvåket og kostnadsoptimalisert miljø, noe som akselererer time‑to‑market og reduserer behovet for spesialiserte sky‑ingeniører. Plugin‑en åpner også en vei for andre kode‑assistenter – OpenAI sin Codex, Gemini CLI, Cursor og det stadig voksende åpne Claude Code‑ferdighetsbiblioteket – til å bruke den samme Azure‑kunnskapsbasen, og potensielt standardisere AI‑drevet DevOps på tvers av plattformer. For utviklere er den umiddelbare fordelen en strammere tilbakemeldingssløyfe: skrive, teste og distribuere uten å forlate AI‑grensesnittet. Hva som er verdt å følge med på: Microsoft har lovet inkrementelle oppdateringer som vil utvide støtten til Azure Arc, hybrid‑sky‑scenarioer og tettere integrasjon med GitHub Copilot. Analytikere vil følge med på adopsjons‑metrikkene, spesielt blant de 90 prosentene av Claude‑relaterte resultater som i dag havner i lav‑stjerne‑GitHub‑repoer, for å se om plugin‑en kan flytte disse prosjektene inn i produksjonsklare pipelines. De neste månedene vil vise om Azure Skills Plugin virkelig kan gjøre «bare si deploy» til en pålitelig realitet for AI‑forsterket programvareleveranse.
56

Show HN: Robust LLM‑ekstraktor for nettsteder i TypeScript  https://github.com/lightfeed/extractor

Show HN: Robust LLM‑ekstraktor for nettsteder i TypeScript  https://github.com/lightfeed/extractor
Mastodon +9 kilder mastodon
Et nytt åpen‑kilde‑bibliotek for web‑datainnhenting har kommet i søkelyset på Hacker News. Lightfeeds «Extractor», en TypeScript‑pakke som kombinerer Playwright‑basert nettleser‑automatisering med store språkmodeller (LLM‑er), ble lagt ut av skaperen som et «Show HN»-innlegg mandag, og tiltrakk seg umiddelbart oppmerksomhet fra både utviklere og AI‑praktikere. Biblioteket lover å erstatte den lappete samlingen av egendefinerte scrapers som mange team bygger for hvert enkelt prosjekt. Ved å mate rå‑HTML inn i et lettvektig konverteringssteg som fjerner navigasjon, topp‑ og bunntekster, produserer verktøyet LLM‑klar markdown. Utviklere kan deretter gi naturlige språk‑prompt som veileder modellen til å returnere validerte, strukturerte data – produktspesifikasjoner, artikkeltekster, brukerkommentarer og mer – samtidig som token‑forbruket holdes lavt nok for produksjons‑pipelines. Repositoryet, som ble gjort offentlig på GitHub (github.com/lightfeed/extractor), inneholder allerede funksjoner som liste‑vs‑detalj‑ekstraksjonsmodus, sporing av verdihistorikk og valgfrie e‑post‑varsler, alt pakket inn i et type‑sikkert API. Hvorfor dette er viktig, er tosidig. For det første eliminerer sammensmeltingen av nettleser‑nivå rendering (via Playwright) og LLM‑resonnement den skjøre, selector‑baserte koden som tradisjonelt bryter når et nettsted endrer layout. For det andre adresserer fokuset på token‑effektivitet en kostnadsbarriere som har holdt LLM‑drevet scraping til forskningslabber snarere enn kommersielle operasjoner. Bedrifter som er avhengige av oppdaterte produktkataloger, markeds‑intelligens‑feeds eller sanntids‑nyhetsaggregasjon kan nå prototype pipelines på timer i stedet for uker, noe som potensielt kan endre økonomien i data‑som‑en‑tjeneste. Det som bør følges med på videre, er fellesskapets respons og adopsjonshastigheten i bedriftsmiljøer. Lightfeed har kunngjort en veikart som inkluderer dypere integrasjoner med OpenAI, Anthropic og lokale LLM‑stabler, samt en visuell feilsøkings‑konsoll for prompt‑tuning. Hvis prosjektet får fart, kan det utløse en bølge av lignende «LLM‑først»‑ekstraksjonsverktøy, og presse større aktører til enten å bidra til den åpne kilden eller lansere konkurrerende tjenester. Å overvåke GitHub‑aktivitet, tidlige case‑studier og eventuell regulatorisk kommentar til AI‑drevet web‑scraping vil være nøkkelen til å vurdere bibliotekets langsiktige innvirkning.
50

Googles nye TurboQuant‑algoritme gjør AI‑minnet 8 ganger raskere og kutter kostnadene med 50 %...

VentureBeat +9 kilder 2026-03-25 news
applegooglellamavector-db
Google kunngjorde en oppgradert versjon av sin TurboQuant‑komprimeringsalgoritme, som lover en åtte‑ganger raskere håndtering av minne for store språkmodeller (LLM) og en 50 % reduksjon i driftskostnadene. Kunngjøringen kommer i en periode hvor LLM‑er utvider sine kontekstvinduer for å kunne behandle flersiders dokumenter, noe som har satt press på nøkkel‑verdi‑bufferne (KV‑cache) som lagrer mellomliggende aktivasjoner under inferens. TurboQuant fungerer ved å komprimere KV‑parene ned til tre‑bits representasjoner, en teknikk som først ble avdekket i Googles forskningsnotat fra 26. mars, hvor en seks‑ganger minnekutt ble demonstrert. Den nye utgivelsen legger til et trenings‑fritt kvantiseringssteg som ikke bare bevarer nøyaktigheten, men også akselererer minne‑lesninger, og leverer den rapporterte åtte‑ganger høyere gjennomstrømmingsgevinsten på Nvidia H100‑GPU‑er. Innen 24 timer begynte utviklere å portere koden til populære åpne‑kilde‑runtime‑miljøer som MLX for Apple Silicon og llama.cpp, noe som signaliserer rask adopsjon i fellesskapet. Oppgraderingen er viktig fordi minnebåndbredde har blitt den primære flaskehalsen både for skybaserte AI‑tjenester og for inferens på enheter. Ved å krympe arbeidsminnet senker TurboQuant GPU‑utnyttelsen, noe som gir billigere skyregninger, og gjør det mulig å kjøre større kontekstvinduer på edge‑enheter. Algoritmen øker også hastigheten på vektorsøk‑arbeidsbelastninger som driver semantisk gjenfinning og anbefalingsmotorer, og kan dermed endre økonomien i AI‑drevet søk. Hva som er verdt å følge videre: Benchmark‑tester fra store skyleverandører vil vise om den åtte‑ganger påstand om hastighet holder seg på tvers av ulike modellfamilier. Apples AI‑pipeline på enheter, som allerede bruker Googles Gemini‑modeller, kan integrere TurboQuant for å bringe mer kapable assistenter til iPhone‑ og Mac‑enheter. Konkurrenter som Meta og Microsoft forventes å lansere rivaliserende komprimeringsordninger, noe som setter i gang et kappløp om å dominere den fremvoksende «memory‑first» AI‑stakken. Etter hvert som økosystemet tester TurboQuant i stor skala, vil påvirkningen på prisfastsettelse, modellarkitektur og muligheten for ultra‑lange kontekst‑LLM‑er bli tydeligere.
48

📰 Hvordan OpenAI takler Soras risiko for nødhjelpssystemer i 2026 – OpenAI har stengt ned

Mastodon +12 kilder mastodon
openaisora
OpenAI kunngjorde 24. mars at de permanent deaktiverer Sora, deres tekst‑til‑video‑modell, og lukker ned den tilhørende forbruker‑appen, API‑et og sora.com‑portalen. Beslutningen kommer etter en bølge av advarsler fra nasjonale beredskapsmyndigheter om at realistisk AI‑generert video kan bli brukt som våpen for å spre falsk informasjon under naturkatastrofer, terrorangrep eller folkehelsekriser. Regjeringskilder uttalte at tiltaket er i tråd med nylig utgitte beredskapsretningslinjer som flagger syntetisk video som en høy‑risiko vektor for desinformasjon som kan hindre koordinering blant første‑respondenter, avlede ressurser og undergrave offentlig tillit. Sora, som ble lansert seks måneder tidligere, er bygget på den samme multimodale arkitekturen som driver DALL‑E og GPT‑4, og gjør det mulig for brukere å legge inn tekst, bilder eller korte klipp og motta en fullverdig video på sekunder. Tidlige demonstrasjoner viste fotorealistiske scener som var vanskelige å skille fra ekte opptak, noe som skapte bekymring for at ondsinnede aktører kunne fabrikkere video av flom, brann eller eksplosjoner og oversvømme sosiale medier i krisetider. BBC rapporterte at nedstengingen også avbryter et partnerskap på 1 milliard dollar med Disney, som skulle integrere Sora i studioets innholdsproduksjonslinje. Stengingen understreker en bredere bransje‑refleksjon rundt generativ videoteknologi. Reguleringsmyndigheter i EU og USA er allerede i ferd med å utforme bestemmelser som vil kreve robuste vannmerker og opprinnelsessporing for syntetisk media, og OpenAIs egen sikkerhetsplan har nylig skiftet fokus fra ren innholdsmoderering til «autonome system‑sikringer». Observatører vil følge med på om OpenAI lanserer en nedskalert versjon av Sora med innebygde deteksjonsverktøy, hvor raskt konkurrenter som Google eller Meta justerer sine videogenerasjons‑veikart, og om nye standarder for nødhjelpskommunikasjon oppstår for å motvirke deep‑fake‑trusler. Episoden kan bli et referansepunkt for hvordan AI‑selskaper balanserer innovasjon med forpliktelser til offentlig sikkerhet.
48

VehicleMemBench: En kjørbar benchmark for flerbruker‑langtidshukommelse i kjøretøys‑agenter

ArXiv +10 kilder arxiv
agentsbenchmarks
Et team av forskere fra Universitetet i Helsinki og partnere i bil‑AI‑miljøet har lansert VehicleMemBench, en åpen kildekode‑benchmark som kan kjøres for å teste hvor godt kjøretøys‑agenter beholder og resonnerer over flerbruker‑preferanser over lengre tidsperioder. Benchmarken leveres som et selvstendig simuleringsmiljø hvor virtuelle passasjerer interagerer med bilens AI‑assistent gjennom dusinvis av økter, og genererer dynamiske preferansehistorikker som agenten må huske, avklare og handle på ved hjelp av kjøretøyets innebygde verktøy. Den medfølgende kodebasen på GitHub inneholder en samling av skriptede scenarier – fra justering av seteposisjon til klima‑kontroll‑preferanser – som bevisst introduserer motstridende brukerforespørsler for å undersøke agentens evne til å løse tvister og opprettholde en sammenhengende tilstand i kjøretøyet. Hvorfor dette er viktig er todelt. For det første utvikler moderne biler seg fra isolerte infotainmentsystemer til delte, AI‑drevne kabiner hvor flere personer forventer personlig tilpassede og vedvarende opplevelser. Nåværende evalueringsmetoder fokuserer på enkelt‑turn‑dialog eller kortsiktige oppgaveløsninger, og etterlater et blindt punkt når det gjelder langtidshukommelse og konfliktløsningskapasitet som er avgjørende for sikkerhetskritiske beslutninger som overlevering av førerassistansen eller nød‑ruting. For det andre gir benchmarken en standardisert, reproduserbar metrikk som kan akselerere forskning på minnearkitekturer – som LangMem eller den nylig avdukte TurboQuant‑komprimeringsteknikken som reduserer LLM‑minnefoten med opptil seks ganger – ved å avdekke virkelige begrensninger knyttet til begrenset ombord‑beregningskraft og lagringskapasitet. Det neste å holde øye med er den raske adopsjonen av VehicleMemBench blant store OEM‑er og plattformleverandører. Tidlige brukere, inkludert en skandinavisk elbil‑oppstart, har lovet å integrere pakken i sine interne validerings‑pipelines, og benchmarkens GitHub‑repo viser allerede forks fra flere AI‑labber som eksperimenterer med hybride minnehentings‑modeller. Den kommende bølgen av artikler vil sannsynligvis rapportere ytelses‑baselines, mens bransjekonsortier kan formalisere benchmarken som en del av sikkerhetssertifiseringsstandarder for autonome kjørefører‑assistenter.
48

📰 KV‑cache‑komprimering: Google kutter AI‑inferenzkostnader med 6× i 2026 – Googles banebrytende KV‑teknologi

Mastodon +11 kilder mastodon
googleinference
Googles forskerteam har avduket en ny komprimeringsteknikk for nøkkel‑verdi‑cache (KV‑cache) som reduserer kostnadene ved å kjøre store språkmodeller (LLM‑er) med omtrent seks ganger, ifølge en artikkel som ble publisert denne uken. Metoden, kalt TurboQuant, kvantiserer KV‑cache‑oppføringer til tre biter uten noen fin‑tuning eller tap av nøyaktighet, og gir opptil åtte ganger raskere hastighet på Nvidia H100‑GPU‑er. Ved å komprimere den minnekrevende cachen som vokser med kontekstlengden, reduseres maskinvare‑fotavtrykket som trengs for inferens, noe som direkte oversettes til lavere strømregninger og billigere priser på sky‑tjenester. Som vi rapporterte den 26. mars, demonstrerte Googles TurboQuant allerede en seks‑ganger reduksjon i minnebruk og en åtte‑ganger forbedring i oppmerksomhetshastighet. Den nye studien går enda lenger og kvantifiserer den økonomiske effekten: leverandører av inferens‑som‑en‑tjeneste kan nå betjene samme antall spørringer med en brøkdel av GPU‑timene, noe som potensielt kan endre prismodellene til de store skyplattformene. Gjennombruddet letter også flaskehalsen knyttet til lange kontekster som har begrenset bruksområder som dokument‑nivåanalyse og sanntids‑oversettelse, og åpner døren for rikere, mer interaktive AI‑produkter. Rippel‑effektene merkes allerede i maskinvaremarkedet. Aksjene til minne‑chip‑produsenter falt etter kunngjøringen, og analytikere spår en nedgang i etterspørselen etter de aller kraftigste GPU‑ene ettersom mellomstore akseleratorer blir tilstrekkelige for mange arbeidsbelastninger. Hold øye med rask integrering av TurboQuant i Azures nye Skills‑Plugin og AWS sine kommende Inferentia‑oppdateringer, samt mulige lisensavtaler som kan bringe teknologien til edge‑enheter. Konkurrenter forventes å akselerere sin egen komprimeringsforskning, og neste kvartal vil vise om kostnadsfordelen omsettes i bredere adopsjon på tvers av AI‑stakken.
45

Google lanserer Lyria 3 Pro – AI‑modell for musikkgenerering

Google lanserer Lyria 3 Pro – AI‑modell for musikkgenerering
Mastodon +14 kilder mastodon
deepmindgoogle
Google har avduket Lyria 3 Pro, den nyeste iterasjonen av sin DeepMind‑støttede AI‑musikkgenerator, som kan komponere komplette tre‑minutters spor med distinkte seksjoner som intro, vers, refreng og bro. Modellen, som rulles ut i dag på seks Google‑plattformer og er integrert i Gemini‑appen, markerer et sprang fra den tidligere Lyria 3‑utgivelsen, som var begrenset til korte løkker. Betalte Gemini‑abonnenter blir de første som får tilgang til Pro‑versjonen, mens et gratis nivå vil tilby forhåndsvisningsklipp. Oppgraderingen er viktig fordi den bringer generativ lyd nærmere den kreative fleksibiliteten til menneskelige komponister. Ved å forstå strukturelle signaler og rytmisk nyanse, kan Lyria 3 Pro produsere sanger som føles arrangert snarere enn bare utvidede løkker, en begrensning som har hemmet tidligere verktøy som Suno eller Udio. For uavhengige musikere, podkastere og annonsører lover modellen rask prototyping av originale lydspor uten lisensieringshindre, og kan potensielt omforme arbeidsflyter for innholdsproduksjon og senke produksjonskostnadene. Bransjeobservatører vil følge med på hvordan Google tjener penger på tjenesten og om Pro‑nivået vil utløse en abonnementsbølge for Gemini. Konkurransen er allerede hard: OpenAIs nylige satsing på lyd med Sora‑modellen har stagnert, mens oppstartsbedrifter fortsetter å iterere på lettvektige LLM‑drevne musikkmotorer. Viktige spørsmål inkluderer modellens evne til å respektere opphavsrett når den er trent på eksisterende musikk, kvaliteten på sjangerspesifikt output, og om Google vil åpne et API for tredjepartsintegrasjon. Hvis Lyria 3 Pro viser seg pålitelig i stor skala, kan den bli de‑facto backend for AI‑forsterket lyd innen streaming, spill og reklame, og utløse en ny bølge av AI‑første musikkproduksjonsverktøy. Hold øye med bruker‑feedback i de kommende ukene og eventuelle kunngjorte prisnivåer som kan signalisere Googles bredere strategi for generativ lyd.
43

OpenAI avslutter Sora‑appen, og dermed også milliardpartnerskapet med Walt Disney

OpenAI avslutter Sora‑appen, og dermed også milliardpartnerskapet med Walt Disney
Mastodon +8 kilder mastodon
openaisora
OpenAI kunngjorde på X at de legger ned Sora, den AI‑drevne video‑generasjonsappen som ble lansert i fjor, og med den også milliardpartnerskapet de hadde inngått med Walt Disney. Varslet, som ble lagt ut uten ytterligere forklaring, bekrefter at avtalen som ble signert i desember – som lovet Disney en eierandel på omtrent 1 milliard dollar og tilgang til Pixar‑, Marvel‑ og Star Wars‑karakterer for AI‑lagde korte klipp – nå er død. Dette markerer slutten på noen turbulente uker for prosjektet. Som vi rapporterte 25. mars, resulterte Disneys pilot av Sora i en høyt profilert «katastrofe» som avdekket tekniske feil og vekket bekymringer om merkevaresikkerhet. Dagen etter detaljerte OpenAI hvordan verktøyets evne til å syntetisere realistisk opptak kunne forstyrre kommunikasjon i nødhjelpssituasjoner, noe som førte til en rask risikoreduserende innsats. De hendelsene, kombinert med økende produksjonskostnader og et strategisk skifte mot produktivitets‑fokuserte modeller i forkant av selskapets planlagte børsnotering, ser ut til å ha tippet vekten. Å avslutte Sora er viktig av flere grunner. For det første signaliserer det at selv godt finansierte, høyt profilerte AI‑eksperimenter kan avbrytes når de kolliderer med selskapets risikotoleranse og regulatorisk gransking. For det andre understreker Disneys tilbaketrekning den underholdningsindustriens forsiktige holdning til å gi generativ AI ubegrenset bruk av ikonisk IP – en lærdom som vil resonere i andre studioer som vurderer lignende samarbeid. Til slutt fjerner nedleggelsen en potensiell kilde til deep‑fake‑videoinnhold, noe som demper noen av de etiske og sikkerhetsmessige bekymringene som har plaget politikere i år. Hva du bør følge med på videre: OpenAIs kommende produktplan, spesielt eventuelle nye verktøy rettet mot bedriftsproduktivitet snarere enn forbrukermedie‑produksjon. Disney vil sannsynligvis revurdere sin AI‑strategi, muligens ved å gå over til interne løsninger eller samarbeide med firmaer som kan garantere strengere kontroll over IP‑bruken. Reguleringsmyndigheter i EU og USA forventes også å gi klarere retningslinjer for AI‑generert visuelt innhold, noe som kan forme neste bølge av samarbeid mellom teknologigiganter og innholdsskapere.
42

OpenAI‑utviklere (@OpenAIDevs) på X

Mastodon +12 kilder mastodon
openai
OpenAI‑utviklere kunngjorde på X at kvalifiserte bachelorstudenter i USA og Canada vil få en kreditt på $100 for å eksperimentere med Codex, selskapets kode‑genereringsmodell som driver GitHub Copilot og andre utviklerverktøy. Kreditt­beløpet, som automatisk vil bli lagt til etter at studentene bekrefter sin påmelding gjennom en enkel registreringsprosess, er ment å senke den økonomiske barrieren for læring og prototyping med AI‑assistert programmering. Dette er viktig fordi Codex fortsatt er en av de mest brukte AI‑kodeassistentene, men kostnadene har begrenset adopsjonen i akademiske miljøer med stramme budsjetter. Ved å subsidiere bruken håper OpenAI å integrere teknologien dypere i datavitenskaps‑pensum, dyrke en generasjon utviklere som er kjent med deres API‑er, og skape en tilbakemeldings‑pipeline som kan akselerere modellforbedringer. Initiativet signaliserer også OpenAIs bredere strategi om å konkurrere med nye alternativer som Googles Gemini Code og Anthropics Claude‑code, som også retter seg mot samme studentmarked med gratisnivåer. Det som vil bli fulgt nøye fremover, er hvor raskt universitetene integrerer kreditt­beløpet i kursplaner og hackathon‑programmer, samt om utrullingen avdekker misbruk eller skaleringsutfordringer. OpenAI har ikke oppgitt den eksakte varigheten av kreditt­beløpet eller noen bruksgrenser, så utviklere vil holde øye med de små detaljene for eventuelle justeringer av hastighetsbegrensninger. En oppfølgings‑kunngjøring forventes senere i dette kvartalet, muligens med en utvidelse av tilbudet til andre regioner eller en pakking sammen med de nylig lanserte AgentKit‑verktøyene som ble kunngjort på Dev Day. Responsen fra studentmiljøet vil bli en tidlig indikator på Codex sin gjennomslagskraft som en fast bestanddel av AI‑forsterket programvareutd
39

Multi‑agentsystemer: Koordinering av AI‑agenter for komplekse oppgaver

Dev.to +11 kilder dev.to
agentstraining
En ny teknisk dybdeanalyse med tittelen «System Design Deep Dive — #5 av 20» er publisert som en del av en serie på 20 innlegg som kartlegger arkitekturen til multi‑agentsystemer. Artikkelen presenterer konkrete designmønstre for å koordinere dusinvis av AI‑agenter rundt en felles kontekst, slik at de kan be om hjelp, delegere deloppgaver og avklare motstridende beslutninger i sanntid. Den bygger på nyere forskning som ser en gruppe spesialiserte agenter som ett enkelt «AI‑team» underlagt en koordinerende node, en modell som først ble fremhevet i «AI Agent Teamwork: Multi‑Agent Coordination Playbook» og i akademisk arbeid om å trene agenter til å dele opp komplekse, flertrinnsoppgaver. Utviklingen er viktig fordi enkelt‑agent‑modeller fortsatt sliter med arbeidsflyter som krever lange beslutningskjeder, som autonom logistikkplanlegging, sanntids svindeldeteksjon eller infotainmentsystemer i kjøretøy. Ved å formalisere delte minnestrukturer og eksplisitte overleveringsprotokoller, lover dybdeanalysen mer pålitelige, skalerbare implementeringer der hver agent kan fokusere på en smal kompetanse mens koordinatoren opprettholder global sammenheng. Dette speiler skiftet vi bemerket 26. mars, da vi rapporterte at AI‑assistanse utvikler seg fra reaktive chat‑boter til autonome agent‑økosystemer. Det neste å holde øye med er de gjenværende sytten innleggene, som vil utforske feiltoleranse, sikkerhets‑sandboxing og ytelses‑benchmarking – temaer som direkte påvirker utrullingen av multi‑agent‑plattformer i sektorer fra bankvirksomhet til bilindustrien. Tidlige adoptører vil sannsynligvis pilotere del‑k
39

Så, # Sora . Historiene begynner å rulle og spekulasjonene florerer om hvorfor # Open

Mastodon +6 kilder mastodon
openaisora
OpenAI har offisielt lagt ned Sora, deres høyt profilerte AI‑tjeneste for videogenerering, og med den den milliarddollar‑partnerskapet de hadde inngått med Walt Disney. Beslutningen ble bekreftet i et kort internt notat som ble distribuert til de ansatte tirsdag, og Sora‑appen forsvant fra Apple Store innen noen timer. Som vi rapporterte 25. mars 2026, ble Disneys engasjement presentert som en «spillendrende» bekreftelse på generativ video for Hollywood; den brå avslutningen reiser nå nye spørsmål om teknologiens levedyktighet. Bransjeinsidere peker på en tydelig mangel på en bærekraftig forretningsmodell som den viktigste drivkraften. Soras sky‑baserte renderingspipeline krevde enorme GPU‑ressurser, men tjenesten nådde aldri mer enn et freemium‑nivå som kun tilbød begrenset utskriftskvalitet. Tidlige brukere – annonsører, uavhengige skapere og noen få studioer – var ivrige, men prisstrukturen dekket aldri driftskostnadene, og OpenAIs forsøk på å tjene penger gjennom per‑minutt‑kreditter stoppet opp. På toppen av det økonomiske presset kom økende juridiske bekymringer: lekkede dokumenter antydet at modellen var trent på opphavsrettsbeskyttet opptak hentet fra YouTube og andre plattformer uten klar tillatelse, noe som førte til trusler om rettssaker fra rettighetshavere og en bølge av kritikk fra kunstnerkollektiver. Nedleggelsen er viktig fordi den signaliserer at selv de best finansierte AI‑selskapene kan snuble når et produkts økonomi kolliderer med regulatoriske og etiske pressmidler. Den understreker også den skjøre naturen til høyt profilerte bedriftsallianser bygget på spekulativ teknologi; Disney står nå overfor et strategisk tomrom i sin AI‑plan og kan se seg om etter rivaler som Runway eller Luma for neste generasjons videoverktøy. Hva som skjer videre: OpenAI forventes å levere en detaljert etteranalyse til SEC, som kan avdekke om beslutningen var rent økonomisk eller også et forebyggende trekk for å unngå ytterligere juridisk eksponering. Disneys neste AI‑partnerskap, sannsynligvis kunngjort i løpet av de kommende ukene, vil indikere om studioet vil satse på intern utvikling eller søke en ny ekstern samarbeidspartner. Konkurrenter posisjonerer seg allerede for å erobre Soras fortrengte brukerbase, så kappløpet om å bygge en kommersielt levedyktig generativ videoplattform er langt fra over.
39

Torsdag: US‑leverandør uten ansvar for fildeling, Finland‑valg uten amerikansk sky – US‑domstol til fordel for leverandør

Torsdag: US‑leverandør uten ansvar for fildeling, Finland‑valg uten amerikansk sky – US‑domstol til fordel for leverandør
Mastodon +6 kilder mastodon
meta
En distriktsdomstol i New York dømte torsdag at en stor amerikansk skyleverandør ikke kan holdes ansvarlig for brukernes ulovlige fildelingsaktivitet, og bekreftet dermed det begrensede ansvaret tjenesteoperatører nyter under Digital Millennium Copyright Act (DMCA). Dommen, som ble avsagt i en sak anlagt av en koalisjon av rettighetshavere, hviler på “safe harbour”-bestemmelsene som beskytter plattformer så lenge de handler raskt for å fjerne krenkende innhold når de blir varslet. Avgjørelsen kommer i en tid da Europa sliter med spenningen mellom den amerikanske CLOUD Act – som gir amerikanske myndigheter rett til å kreve data fra utenlandske servere eid av amerikanske selskaper – og EUs ambisjon om digital suverenitet. Finlands valgkommisjon kunngjorde samme dag at de vil gjennomføre parlamentsvalget i september på en fullstendig europeisk sky‑infrastruktur, og utelukker uttrykkelig amerikanske hyperscalere. Tjenestemenn pekte på CLOUD Act og nylige rettspraksiser som grunner til å unngå enhver risiko for at utenlandsk rettshåndhevelse kan få tilgang til velgerdata. Hvorfor dette er viktig: Den amerikanske dommen styrker det juridiske skjoldet for skyleverandører, noe som potensielt kan oppmuntre dem til å utvide tjenester uten frykt for opphavsrettssøksmål, samtidig som den skjerper kritikken av hvor kritisk offentlig data lagres. Finlands tiltak signaliserer en bredere bevegelse blant de nordiske landene mot “dataplassering” for sensitive funksjoner, en trend som kan presse globale leverandører til å tilby alternativer under EU‑jurisdiksjon eller risikere å miste offentlige kontrakter. Hva som bør følges med på videre: Europakommisjonen forventes å publisere veiledning om etterlevelse av CLOUD Act senere denne måneden, og flere andre nordiske regjeringer har antydet lignende sky‑eksklusjonspolicyer. Juridiske eksperter vil følge med på om rettighetshavergruppene vil anke New York‑avgjørelsen, noe som kan sette presedens for fremtidige brudd‑saker. Samtidig legger Meta’s kunngjorte AI‑oppgraderinger og en amerikansk domstolsavgjørelse som gjør at plattformer kan bli saksøkt for å fremme avhengighet av sosiale medier, til ytterligere regulatorisk kaos rundt teknologigigantene, og antyder at balansen mellom innovasjon, ansvar og suverenitet vil forbli en hett omdiskutert arena gjennom 2026.
36

Kan LLM‑agenter være finansdirektører? En benchmark for ressursallokering i dynamiske bedriftsmiljøer

ArXiv +10 kilder arxiv
agentsbenchmarks
Et forskerteam har lansert **EnterpriseArena**, den første benchmark‑testen som setter store‑språk‑modell‑agenter (LLM‑agenter) gjennom en fullskala CFO‑simulering. Det åpne rammeverket kjører en 132‑måneders bedriftsimulator som kombinerer faktiske, firma‑nivå finansregnskap, anonymiserte forretningsdokumenter, makroøkonomiske indikatorer og bransjetrender med ekspert‑validerte driftsregler. Agentene må allokere kapital, ansette personale, igangsette prosjekter og kutte kostnader samtidig som de håndterer skjult informasjon og stokastiske markedsendringer – oppgaver som speiler de langsiktige, høyrisiko‑beslutningene en finansdirektør står overfor. Lanseringen følger vår dekning fra 26. mars av multi‑agent‑systemer for komplekse oppgaver, hvor vi påpekte at LLM‑drevne agenter utmerker seg i kortsiktige, reaktive handlinger, men ennå ikke er grundig testet på strategisk ressursplanlegging. EnterpriseArena fyller dette hullet ved å måle ikke bare rå prediksjonsnøyaktighet, men også evnen til å opprettholde finansiell helse, overholde regulatoriske krav og tilpasse seg uforutsette sjokk over en tiårs horisont. Tidlige eksperimenter rapportert i arXiv‑pre‑printen (2603.23638v1) viser at selv de mest avanserte LLM‑ene sliter med å holde et balansert budsjett uten eksplisitt veiledning, noe som understreker behovet for mer sofistikerte planleggings‑, minnehåndterings‑ og risikovurderingsmoduler. Utgivelsen av benchmarken kan akselerere overgangen fra AI‑assistenter som svarer på spørsmål til autonome agenter som styrer forretningsprosesser fra ende til ende. Bedrifter vil sannsynligvis snart evaluere leverandørløsninger mot EnterpriseArena før de ruller ut LLM‑baserte finans‑bots, mens forskere trolig vil bruke pakken til å benchmarke minne‑effektive modeller som Googles TurboQuant‑komprimering og langtids‑minnesystemer som VehicleMemBench. Hold øye med de første offentlige resultatene på ledertavlen, som forventes senere i dette kvartalet, samt oppfølgingsstudier som integrerer multi‑agent‑koordinasjonsteknikker for å håndtere tverr‑avdelingsbeslutninger. Suksess i dette arenaet kan redefinere hvordan selskaper utnytter AI for strategisk styring, og forvandle eksperimentelle agenter til pålitelige bedriftsledere.
32

Google Gemini AI er nå offisielt tilgjengelig for brukere i Hong Kong; Gmail‑brukere kan nå logge inn på Gemini‑nettversjonen og gratis oppleve den kraftige AI‑assistenten https://www

Mastodon +6 kilder mastodon
geminigoogle
Google har fjernet de siste restriksjonene på sin Gemini‑AI‑assistent, og gjort tjenesten tilgjengelig for alle Gmail‑registrerte brukere i Hong Kong uten behov for VPN. Utrullingen, som ble kunngjort tidligere denne uken, åpner det nettbaserte Gemini‑grensesnittet og den mobile følgesvennen for territoriets 7 millioner internettbrukere, som nå kan aktivere chatboten med stemme, generere tekst, bilder og korte videoer, og bruke den til daglige oppgaver som å skrive e‑post, planlegge reiser eller brainstorme idéer. Dette følger den trinnvise lanseringen vi rapporterte den 26. mars, da Google først åpnet Gemini for en begrenset gruppe Hong Kong‑kontoer. Full tilgang markerer fullføringen av den prøven og signaliserer Googles tillit til at deres flaggskipmodell – den nyeste Gemini 3.1, omtalt som «den mest kraftfulle og raskeste» i serien – kan fungere pålitelig under lokale nettverksforhold og overholde regionens forventninger til dataprivatliv. Hvorfor dette er viktig, er tosidig. For det første konkurrerer Gemini nå direkte med OpenAIs ChatGPT og Microsofts Copilot i et marked som har vært ivrig etter et lokalt alternativ til Apples Siri og VPN‑avhengige tjenester. For det andre senker tilgjengeligheten i gratisnivået terskelen for småbedrifter, lærere og innholdsskapere til å integrere generativ AI i arbeidsflyter, noe som potensielt kan endre produktivitetsstandardene i Hong Kongs tjenesteorienterte økonomi. Når vi ser fremover, dreier de neste spørsmålene seg om prisfastsettelse og bedriftsintegrasjon. Google har antydet en betalt «Pro»-versjon for tunge brukere, og selskapet forventes å veve Gemini dypere inn i Workspace, Maps og YouTube. Reguleringsmyndighetene vil også følge med på hvordan modellen håndterer personopplysninger under Hong Kongs utviklende rammeverk for AI‑styring. Til slutt vil bransjen holde øye med om Gemini 4.0, som er planlagt senere i år, vil introdusere multimodale funksjoner som ytterligere kan erodere markedsandelen til eksisterende assistenter. Som vi rapporterte den 26. mars, er den fullstendige åpningen av Gemini det siste steget i Googles aggressive satsing på å gjøre sin AI til standardverktøyet for hverdagsbrukere i regionen.
31

**Ny målestokk for åpen‑kilde‑agenter: Hva er Claw‑Eval? Hvordan Step 3.5 Flash sikret andreplass**

Dev.to +5 kilder dev.to
agentsbenchmarksopen-source
Et nytt åpen‑kilde‑evalueringstøttverk kalt **Claw‑Eval** har raskt blitt samtaleemnet i LLM‑agent‑samfunnet. Rammeverket, som ble publisert på GitHub denne uken, tilbyr en gjennomsiktig, menneskelig verifisert benchmark som måler hvor godt store språkmodeller presterer som autonome agenter på 27 flertrinnsoppgaver. I den første offentlige ranglisten tok Step 3.5‑Flash‑modellen fra StepFun AI andreplassen samlet, kun bak den proprietære GLM‑5, samtidig som den delte førsteplassen på Pass@3‑målingen – den vanlige indikatoren på en agents evne til å finne en korrekt løsning innen tre forsøk. Lanseringen er viktig fordi feltet har manglet en felles målestokk for «virkelighetsnær» agent‑ytelse. Tidligere benchmarks som VehicleMemBench, som vi dekket 26. mars 2026, fokuserte på minne‑persistens i kjøretøyscenarier, men de vurderte ikke hele verktøy‑bruk‑pipeline som moderne agenter krever. Claw‑Eval fyller dette gapet ved å kreve verktøy‑kalling, håndtering av kontekst‑vindu og feilhåndtering, samt ved å publisere per‑oppgave‑nedbrytninger som lar utviklere identifisere styrker og svakheter. Den åpne kildekoden i testharnessen fremmer også reproduserbarhet og fellesskaps‑drevne utvidelser, i kontrast til de proprietære ranglistene som dominerer kommersielle LLM‑rangeringer. Step 3.5‑Flash sin oppsving fremhever en voksende «agent‑kapprustning» blant åpne prosjekter. Modellen, finjustert på flertrinns verktøy‑bruk‑data, viser at spesialisert instruksjon kan innkalle gapet til lukkede kraftsentra. Resultatet understreker også viktigheten av Pass@3‑målingen, som mange forskere nå ser på som en proxy for praktisk pålitelighet i driftsmiljøer som automatisert kundeservice, kode‑generasjonsassistenter og til og med finansielle beslutnings‑agenter. Hva som er verdt å følge med på videre: Claw‑Eval‑vedlikeholderne har lovet kvartalsvise oppdateringer med nye oppgaver som simulerer beredskaps‑koordinering og langsiktig planlegging – områder der nylig OpenAI‑sikkerhetsarbeid, rapportert 26. mars 2026, har reist bekymringer. Man kan forvente at andre åpne‑kilde‑grupper slipper «step‑3.5‑plus»‑varianter rettet mot de kommende 5‑million‑token‑kontekstvinduene som bransjeinsidere spår vil komme senere i år. Ranglisten vil sannsynligvis bli en barometer for hvilke modeller som er klare for produksjons‑grad autonome arbeidsflyter, og kan påvirke finansieringsbeslutninger for oppstartsbedrifter som konkurrerer om å bygge neste generasjon AI‑agenter.
31

OpenAI har nettopp lagt ned sin Sora AI‑generator for korte videoer

Vice +10 kilder 2026-03-26 news
openaisora
OpenAI kunngjorde tirsdag at de legger ned Sora, kort‑form video‑generatoren som etter lanseringen i oktober 2025 både skapte viral hype og bekymring i bransjen. I et kort innlegg på X skrev selskapet: «Vi sier farvel til Sora», og la til at tjenesten vil bli deaktivert innen noen uker, og at brukergenerert innhold vil bli fjernet fra plattformen. Beslutningen kommer kun tre måneder etter at OpenAI avbrøt et flerårig partnerskap med Walt Disney som skulle ha gjort det mulig for skapere å bruke Disney‑karakterer i Sora‑videoer. Avbruddet i avtalen, som ble rapportert 26. mars, ble allerede sett på som et advarselstegn om at appens juridiske og lisensieringsrisikoer veide tyngre enn det kommersielle potensialet. Samtidig har OpenAI mottatt kritikk fra Hollywood‑fagforeninger, annonsører og regulatorer som advarte om at AI‑genererte klipp kan oversvømme sosiale strømmer med deep‑fakes, undergrave opphavsrett og til og med forstyrre nødkommunikasjon – en bekymring som ble fremhevet i vår dekning av Open

Alle datoer